如何在 Python 中從 HTML 檔案中提取乾淨的文本，同時避免正規表示式的陷阱？-Python教學-PHP中文網

首頁

後端開發

Python教學

如何在 Python 中從 HTML 檔案中提取乾淨的文本，同時避免正規表示式的陷阱？

Barbara Streisand

Nov 28, 2024 pm 07:53 PM

How Can I Extract Clean Text from HTML Files in Python While Avoiding the Pitfalls of Regular Expressions?

使用Python 從HTML 檔案中提取乾淨的文字

當尋求使用Python 從HTML 檔案中提取文字時，重要的是要考慮魯棒性和準確性。雖然正規表示式通常可以完成這項工作，但它們可能會遇到格式不良的 HTML。

對於更強大的解決方案，通常建議使用 Beautiful Soup 等函式庫。然而，使用者可能會遇到不必要的文字的挑戰，例如 JavaScript 來源和不正確的 HTML 實體解釋。

要解決這些問題，需要更全面的方法。

html2text：一個有前途的解決方案

一個有前途的解決方案是 html2text。該程式庫正確處理 HTML 實體並忽略 JavaScript。然而，它產生 Markdown 而不是純文本，需要額外的處理來轉換它。

利用 BeautifulSoup 和自訂程式碼

另一種方法是將 BeautifulSoup 與自訂程式碼。透過刪除不需要的元素（例如腳本和樣式）並利用 get_text() 方法，您可以獲得乾淨的文字表示形式，而無需僅依賴正規表示式。

以下是示範此方法的Python 程式碼片段：

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
soup = BeautifulSoup(html, features="html.parser")

# Remove script and style elements
for script in soup(["script", "style"]):
    script.extract()

# Extract text
text = soup.get_text()

# Additional processing to remove unwanted whitespace and split headlines into separate lines
lines = (line.strip() for line in text.splitlines())
chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
text = '\n'.join(chunk for chunk in chunks if chunk)

print(text)

這種方法允許您從HTML 檔案中提取乾淨的、人類可讀的文本，而沒有正規表示式或庫可能無法處理所有場景的缺點有效。

以上是如何在 Python 中從 HTML 檔案中提取乾淨的文本，同時避免正規表示式的陷阱？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

學習Python：2小時的每日學習是否足夠？Apr 18, 2025 am 12:22 AM

每天學習Python兩個小時是否足夠？這取決於你的目標和學習方法。 1)制定清晰的學習計劃，2)選擇合適的學習資源和方法，3)動手實踐和復習鞏固，可以在這段時間內逐步掌握Python的基本知識和高級功能。

Web開發的Python：關鍵應用程序Apr 18, 2025 am 12:20 AM

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架：Django適合快速開發複雜應用，Flask適用於小型或高度自定義項目。 2.API開發：使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化：利用Python處理數據並通過Web界面展示。 4.機器學習與AI：Python用於構建智能Web應用。 5.性能優化：通過異步編程、緩存和代碼優

Python vs.C：探索性能和效率Apr 18, 2025 am 12:20 AM

Python在開發效率上優於C ，但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。

python在行動中：現實世界中的例子Apr 18, 2025 am 12:18 AM

Python在現實世界中的應用包括數據分析、Web開發、人工智能和自動化。 1)在數據分析中，Python使用Pandas和Matplotlib處理和可視化數據。 2)Web開發中，Django和Flask框架簡化了Web應用的創建。 3)人工智能領域，TensorFlow和PyTorch用於構建和訓練模型。 4)自動化方面，Python腳本可用於復製文件等任務。