Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Teks dalam Python?

Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Teks dalam Python?

Linda Hamilton
Linda Hamiltonasal
2024-12-19 22:42:16608semak imbas

How Can I Efficiently Strip HTML Tags from Text in Python?

Melucutkan Teg HTML dalam Python untuk Perwakilan Tekstual Tulen

Memanipulasi respons HTML selalunya melibatkan pengekstrakan kandungan teks yang berkaitan sambil menghapuskan teg pemformatan. Ini boleh dicapai dengan menanggalkan tag HTML dengan berkesan, meninggalkan anda dengan teks biasa yang dikehendaki.

Mencapai Pengekstrakan Teks Sahaja dengan MLStripper Python

Untuk menyelaraskan proses pelucutan, perpustakaan standard Python menyediakan fungsi yang cekap, MLStripper, direka khusus untuk tujuan ini. MLStripper mengambil input HTML dan menghuraikannya, hanya mengekalkan kandungan bukan penanda.

Pelaksanaan untuk Python 3 dan 2

Bergantung pada versi Python anda, anda boleh menggunakan yang berikut coretan kod:

Python 3:

from io import StringIO
from html.parser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs= True
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

Python 2:

from HTMLParser import HTMLParser
from StringIO import StringIO

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

Penggunaan:

Panggil sahaja strip_tags fungsi menghantar input HTML sebagai hujah rentetan. Nilai yang dikembalikan akan menjadi rentetan yang dilucutkan dengan semua teg HTML dialih keluar.

Teknik ini terbukti tidak ternilai apabila anda perlu bekerja dengan data teks yang diekstrak daripada sumber HTML, memastikan perwakilan teks yang bersih dan terurus.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Teks dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn