在 Python 中剝離 HTML 標籤以獲得原始文字表示
操作 HTML 回應通常涉及擷取相關文字內容,同時消除格式標籤。這可以透過有效地剝離 HTML 標籤來實現,留下所需的純文字。
使用 Python 的 MLStripper 實作純文字擷取
為了簡化剝離過程, Python 標準函式庫提供了一個專門為此目的而設計的高效能函數 MLStripper。 MLStripper 接受 HTML 輸入並解析它,僅保留非標記內容。
Python 3 和 2 的實作
根據您的 Python 版本,您可以使用以下內容程式碼片段:
Python 3:
from io import StringIO from html.parser import HTMLParser class MLStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs= True self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
Python 2:
from HTMLParser import HTMLParser from StringIO import StringIO class MLStripper(HTMLParser): def __init__(self): self.reset() self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
用法:
用法:用函數將HTML 輸入作為字串參數傳遞。傳回的值將是刪除了所有 HTML 標籤的剝離字串。 當您需要使用從 HTML 來源提取的文字資料時,這種技術被證明是非常有用的,以確保乾淨且易於管理的文字表示。以上是如何在Python中有效地從文字中移除HTML標籤?的詳細內容。更多資訊請關注PHP中文網其他相關文章!