Heim  >  Artikel  >  Backend-Entwicklung  >  Wie kann ich XPath mit BeautifulSoup verwenden?

Wie kann ich XPath mit BeautifulSoup verwenden?

Linda Hamilton
Linda HamiltonOriginal
2024-11-08 06:26:01602Durchsuche

How can I use XPath with BeautifulSoup?

XPath mit BeautifulSoup verwenden

BeautifulSoup ist eine beliebte Python-Bibliothek zum Parsen und Bearbeiten von HTML-Dokumenten. XPath-Ausdrücke werden jedoch nicht nativ unterstützt.

Alternative: lxml

Eine alternative Bibliothek namens lxml bietet vollständige XPath 1.0-Unterstützung. Es verfügt außerdem über einen BeautifulSoup-kompatiblen Modus, der fehlerhaftes HTML wie BeautifulSoup analysieren kann. So verwenden Sie XPath mit lxml:

from lxml import etree
from urllib import request

url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html"
response = request.urlopen(url)
tree = etree.parse(response, etree.HTMLParser())
result_list = tree.xpath("/html/body/div/table/tbody/tr[1]/td[1]")

Verwenden von CSS-Selektoren mit lxml

lxml verfügt auch über CSSSelector-Unterstützung, die CSS-Anweisungen in XPath-Ausdrücke übersetzen kann. Um beispielsweise td-Elemente mit der Klasse empformbody zu finden:

from lxml.cssselect import CSSSelector

css_selector = CSSSelector('td.empformbody')
result_list = css_selector(tree)

CSS-Selektoren in BeautifulSoup

Interessanterweise verfügt BeautifulSoup über eine eigene CSS-Selektorunterstützung:

soup = BeautifulSoup(html, "html.parser")
result_list = soup.select('table#foobar td.empformbody')

Das obige ist der detaillierte Inhalt vonWie kann ich XPath mit BeautifulSoup verwenden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn