>백엔드 개발 >파이썬 튜토리얼 >Python의 텍스트에서 HTML 태그를 효율적으로 제거하려면 어떻게 해야 합니까?

Python의 텍스트에서 HTML 태그를 효율적으로 제거하려면 어떻게 해야 합니까?

Linda Hamilton
Linda Hamilton원래의
2024-12-19 22:42:16518검색

How Can I Efficiently Strip HTML Tags from Text in Python?

원래 그대로의 텍스트 표현을 위해 Python에서 HTML 태그 제거

HTML 응답을 조작하려면 서식 지정 태그를 제거하면서 관련 텍스트 콘텐츠를 추출해야 하는 경우가 많습니다. 이는 HTML 태그를 효과적으로 제거하여 원하는 일반 텍스트를 남겨두는 방식으로 달성할 수 있습니다.

Python의 MLStripper를 사용하여 텍스트 전용 추출 달성

제거 프로세스를 간소화하려면, Python 표준 라이브러리는 이러한 목적을 위해 특별히 설계된 효율적인 기능인 MLStripper를 제공합니다. MLStripper는 HTML 입력을 받아 구문 분석하고 마크업이 아닌 콘텐츠만 보존합니다.

Python 3 및 2 구현

Python 버전에 따라 다음을 활용할 수 있습니다. 코드 조각:

Python 3:

from io import StringIO
from html.parser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs= True
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

Python 2:

from HTMLParser import HTMLParser
from StringIO import StringIO

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

사용법:

Strip_tags를 호출하기만 하면 됩니다. HTML 입력을 문자열 인수로 전달하는 함수입니다. 반환된 값은 모든 HTML 태그가 제거된 스트립 문자열입니다.

이 기술은 HTML 소스에서 추출된 텍스트 데이터로 작업해야 할 때 깨끗하고 관리 가능한 텍스트 표현을 보장하는 데 매우 유용합니다.

위 내용은 Python의 텍스트에서 HTML 태그를 효율적으로 제거하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.