使用 Python 從 HTML 擷取文字
您的目標是使用 Python 從 HTML文件中提取文本,複製您獲得的輸出通過從瀏覽器複製文本並將其粘貼到文本中
挑戰
正則表達式對於格式不良的HTML來說不夠強大。雖然 Beautiful Soup 經常被推薦,但它可能會擷取 JavaScript 等不需要的內容,並且無法解釋 HTML 實體。
有希望的替代方案:html2text
儘管它產生 markdown 而不是純文本,html2text 可以正確處理 HTML 實體並忽略 JavaScript。然而,它的文檔和示例是有限的。
文字擷取的最佳程式碼
下面的程式碼提供了一個有效的解決方案,可以過濾掉不需要的元素並保留HTML 實體:
依賴
使用這個程式碼,您需要安裝BeautifulSoup4:
以上是如何在 Python 中有效率地從 HTML 中提取乾淨的文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!