Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Strings dalam Python?

Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Strings dalam Python?

Susan Sarandon
Susan Sarandonasal
2024-12-28 22:26:10985semak imbas

How Can I Efficiently Strip HTML Tags from Strings in Python?

Melucutkan HTML daripada Strings dalam Python

Apabila berinteraksi dengan kandungan HTML, selalunya menjadi perlu untuk memisahkan teks yang bermakna daripada teg markup untuk pemprosesan atau analisis selanjutnya. Begini cara untuk mencapai ini dengan cekap dalam Python.

Untuk menanggalkan tag HTML daripada rentetan, gunakan HTMLParser daripada perpustakaan standard Python. Penghurai ini menyediakan cara yang mudah untuk menghuraikan dokumen HTML dan mengekstrak kandungan yang dikehendaki sahaja.

Untuk Python 3, gunakan kod berikut:

from io import StringIO
from html.parser import HTMLParser

class TagStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs = True
        self.text = StringIO()
    def handle_data(self, data):
        self.text.write(data)
    def get_data(self):
        return self.text.getvalue()

def strip_html(html):
    stripper = TagStripper()
    stripper.feed(html)
    return stripper.get_data()

Untuk Python 2, gunakan kod berikut:

from HTMLParser import HTMLParser
from StringIO import StringIO

class TagStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, data):
        self.text.write(data)
    def get_data(self):
        return self.text.getvalue()

def strip_html(html):
    stripper = TagStripper()
    stripper.feed(html)
    return stripper.get_data()

Sekarang, mari kita gambarkan penggunaannya:

html = "<p>Hello, <em>world</em>!</p>"
stripped_text = strip_html(html)
print(stripped_text)  # Output: Hello, world!

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Strings dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn