首頁 >後端開發 >Python教學 >如何在Python中有效地從文字中移除HTML標籤?

如何在Python中有效地從文字中移除HTML標籤?

Linda Hamilton
Linda Hamilton原創
2024-12-19 22:42:16517瀏覽

How Can I Efficiently Strip HTML Tags from Text in Python?

在 Python 中剝離 HTML 標籤以獲得原始文字表示

操作 HTML 回應通常涉及擷取相關文字內容,同時消除格式標籤。這可以透過有效地剝離 HTML 標籤來實現,留下所需的純文字。

使用 Python 的 MLStripper 實作純文字擷取

為了簡化剝離過程, Python 標準函式庫提供了一個專門為此目的而設計的高效能函數 MLStripper。 MLStripper 接受 HTML 輸入並解析它,僅保留非標記內容。

Python 3 和 2 的實作

根據您的 Python 版本,您可以使用以下內容程式碼片段:

Python 3:

from io import StringIO
from html.parser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs= True
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

Python 2:

from HTMLParser import HTMLParser
from StringIO import StringIO

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

用法:

用法:

用函數將HTML 輸入作為字串參數傳遞。傳回的值將是刪除了所有 HTML 標籤的剝離字串。 當您需要使用從 HTML 來源提取的文字資料時,這種技術被證明是非常有用的,以確保乾淨且易於管理的文字表示。

以上是如何在Python中有效地從文字中移除HTML標籤?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn