XPath 可以與 BeautifulSoup 整合嗎?
BeautifulSoup 是一個 HTML 解析庫,允許使用者使用 findAll 等方法檢索特定標籤。但是,它缺乏對 XPath 表達式的支援。
輸入 lxml
lxml,一個替代庫,提供 XPath 支援並具有 BeautifulSoup 相容模式。 lxml 的標準 HTML 解析器在處理損壞的 HTML 方面的效能與 BeautifulSoup 相當,並且可能提供更快的處理速度。
要使用 lxml 的 XPath 功能:
lxml 和請求庫範例
import lxml.html import requests url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" response = requests.get(url, stream=True) response.raw.decode_content = True tree = lxml.html.parse(response.raw) tree.xpath(xpathselector)
lxml 的CSS 選擇器支援
CSS 語法轉換為XPath 表達式,簡化了對特定內容的搜尋from lxml.cssselect import CSSSelector td_empformbody = CSSSelector('td.empformbody') for elem in td_empformbody(tree): # Process found elements.
BeautifulSoup 的CSS 選擇器支援
BeautifulSoup 本身提供全面的CSS 選擇器支持,允許與lxml 的CSSSelector 類別相同的功能:以上是lxml 的 XPath 功能可以與 BeautifulSoup 整合嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!