首頁 >後端開發 >Python教學 >如何在 Python 中有效率地從 HTML 中提取乾淨的文字?

如何在 Python 中有效率地從 HTML 中提取乾淨的文字?

Mary-Kate Olsen
Mary-Kate Olsen原創
2024-11-29 22:58:11620瀏覽

How Can I Efficiently Extract Clean Text from HTML in Python?

使用 Python 從 HTML 擷取文字

您的目標是使用 Python 從 HTML文件中提取文本,複製您獲得的輸出通過從瀏覽器複製文本並將其粘貼到文本中

挑戰

正則表達式對於格式不良的HTML來說不夠強大。雖然 Beautiful Soup 經常被推薦,但它可能會擷取 JavaScript 等不需要的內容,並且無法解釋 HTML 實體。

有希望的替代方案:html2text

儘管它產生 markdown 而不是純文本,html2text 可以正確處理 HTML 實體並忽略 JavaScript。然而,它的文檔和示例是有限的。

文字擷取的最佳程式碼

下面的程式碼提供了一個有效的解決方案,可以過濾掉不需要的元素並保留HTML 實體:

依賴

使用這個程式碼,您需要安裝BeautifulSoup4:

以上是如何在 Python 中有效率地從 HTML 中提取乾淨的文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn