從 Python 中的字串中刪除 HTML 格式
考慮提取 HTML 文件內容而不顯示格式標記的任務。例如,HTML 元素一些文本應該只輸出“一些文本”,並且hello應該顯示「hello。」
解決方案
內建的Python庫提供了一個有用的機制來實現這個目標:
對於Python 3:
from io import StringIO from html.parser import HTMLParser class MLStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs= True self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
對 Python 2:
from HTMLParser import HTMLParser from StringIO import StringIO class MLStripper(HTMLParser): def __init__(self): self.reset() self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
以上是如何在 Python 中從字串中刪除 HTML 標籤?的詳細內容。更多資訊請關注PHP中文網其他相關文章!