원래 그대로의 텍스트 표현을 위해 Python에서 HTML 태그 제거
HTML 응답을 조작하려면 서식 지정 태그를 제거하면서 관련 텍스트 콘텐츠를 추출해야 하는 경우가 많습니다. 이는 HTML 태그를 효과적으로 제거하여 원하는 일반 텍스트를 남겨두는 방식으로 달성할 수 있습니다.
Python의 MLStripper를 사용하여 텍스트 전용 추출 달성
제거 프로세스를 간소화하려면, Python 표준 라이브러리는 이러한 목적을 위해 특별히 설계된 효율적인 기능인 MLStripper를 제공합니다. MLStripper는 HTML 입력을 받아 구문 분석하고 마크업이 아닌 콘텐츠만 보존합니다.
Python 3 및 2 구현
Python 버전에 따라 다음을 활용할 수 있습니다. 코드 조각:
Python 3:
from io import StringIO from html.parser import HTMLParser class MLStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs= True self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
Python 2:
from HTMLParser import HTMLParser from StringIO import StringIO class MLStripper(HTMLParser): def __init__(self): self.reset() self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
사용법:
Strip_tags를 호출하기만 하면 됩니다. HTML 입력을 문자열 인수로 전달하는 함수입니다. 반환된 값은 모든 HTML 태그가 제거된 스트립 문자열입니다.
이 기술은 HTML 소스에서 추출된 텍스트 데이터로 작업해야 할 때 깨끗하고 관리 가능한 텍스트 표현을 보장하는 데 매우 유용합니다.
위 내용은 Python의 텍스트에서 HTML 태그를 효율적으로 제거하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!