首頁 >後端開發 >Python教學 >如何使用 BeautifulSoup 從網頁中僅提取可見文字?

如何使用 BeautifulSoup 從網頁中僅提取可見文字?

Linda Hamilton
Linda Hamilton原創
2024-11-15 11:08:02928瀏覽

How to Extract Only Visible Text from Webpages with BeautifulSoup?

如何使用 BeautifulSoup 從網頁中只提取可見文字

網頁抓取通常涉及選擇網頁內容的特定部分,包括可見文字。 BeautifulSoup 是一個流行的網頁抓取庫,可用於僅提取可見文本,不包括註釋和腳本等隱藏元素。

原始問題:

原始問題問題旨在將可見文字與網頁隔離,特別是排除腳本標籤、HTML 註解和其他不可見內容。使用者希望檢索主體文字和可能的一些選項卡名稱,同時避免使用 CSS 和 JavaScript 等元素。

答案解釋:

提供的答案利用 BeautifulSoup以及自訂過濾來滿足此請求。 tag_visible() 函數評估給定元素是否屬於一組特定的不可見元素類型(例如樣式、腳本、頭部)或它是否是 HTML 註解。如果是,則傳回 False,表示應排除該元素。

text_from_html() 函數使用帶有 text 參數的 BeautifulSoup.findAll() 方法來捕獲所有文字元素。隨後,它將 tag_visible() 過濾器應用於文字元素以隔離可見元素。最後,它將可見文字組合成單一字串,僅產生網頁可見文字的所需結果。

以上是如何使用 BeautifulSoup 從網頁中僅提取可見文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn