Maison >interface Web >tutoriel HTML >Un guide de base du débutant sur les sélecteurs lxml

Un guide de base du débutant sur les sélecteurs lxml

王林
王林original
2024-01-13 09:39:05497parcourir

Un guide de base du débutant sur les sélecteurs lxml

Partez de zéro et découvrez quels sélecteurs lxml prend en charge !

Selector est l'un des outils très importants dans le processus d'analyse de pages Web et d'extraction de données. lxml est une puissante bibliothèque Python qui fournit une variété de sélecteurs qui peuvent nous aider à localiser et à extraire plus facilement le contenu des pages Web. Cet article présentera quelques sélecteurs courants pris en charge par lxml et fournira un exemple simple de démonstration.

lxml est un analyseur HTML et XML hautes performances basé sur le langage C. Sa vitesse et son utilisation de la mémoire sont meilleures que celles du propre analyseur Python. lxml prend en charge deux syntaxes de sélecteur couramment utilisées, les sélecteurs XPath et CSS. Ci-dessous, nous présentons respectivement leur utilisation.

  1. Sélecteur XPath

XPath est un sélecteur basé sur le langage d'expression de chemin XML, qui localise les nœuds via des expressions de chemin. Utiliser la syntaxe XPath dans lxml est très simple, utilisez simplement la méthode xpath(). Voici quelques exemples d'expressions XPath :

from lxml import etree

html = """
<html>
    <body>
        <div class="content">
            <h1>标题</h1>
            <ul>
                <li>列表1</li>
                <li>列表2</li>
                <li>列表3</li>
            </ul>
        </div>
    </body>
</html>
"""

# 创建解析器对象
parser = etree.HTMLParser()

# 解析HTML
tree = etree.parse(html, parser)

# 使用XPath选择器
title = tree.xpath("//h1/text()")[0]
print(title)  # 输出:标题

# 获取所有列表项
items = tree.xpath("//li")
for item in items:
    print(item.text)  # 输出:列表1  列表2  列表3
  1. Sélecteur CSS

Le sélecteur CSS est une syntaxe de sélecteur couramment utilisée qui sélectionne les éléments par style. Pour utiliser les sélecteurs CSS dans lxml, vous pouvez utiliser la bibliothèque cssselect. Voici quelques exemples de sélecteurs CSS :

from lxml import etree
from lxml.cssselect import CSSSelector

html = """
<html>
    <body>
        <div class="content">
            <h1>标题</h1>
            <ul>
                <li>列表1</li>
                <li>列表2</li>
                <li>列表3</li>
            </ul>
        </div>
    </body>
</html>
"""

# 创建解析器对象
parser = etree.HTMLParser()

# 解析HTML
tree = etree.parse(html, parser)

# 使用CSS选择器
selector = CSSSelector("h1")
title = selector(tree)[0].text
print(title)  # 输出:标题

# 获取所有列表项
selector = CSSSelector("li")
items = selector(tree)
for item in items:
    print(item.text)  # 输出:列表1  列表2  列表3

A travers les exemples ci-dessus, nous pouvons voir que les sélecteurs de lxml sont très flexibles et simples. En plus de l'utilisation de base présentée ci-dessus, lxml prend également en charge des opérations de sélection plus complexes, telles que la combinaison de sélecteurs, l'imbrication de sélecteurs, etc.

Pour résumer, lxml est une puissante bibliothèque d'analyse HTML et XML qui prend en charge deux syntaxes de sélection couramment utilisées, les sélecteurs XPath et CSS. Grâce au sélecteur de lxml, nous pouvons localiser et extraire rapidement et précisément le contenu de la page Web, ce qui facilite le traitement et l'analyse ultérieurs des données. J'espère que cet article pourra aider les lecteurs à comprendre la fonction de sélection de lxml et à être pleinement appliqué dans des projets réels.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn