>백엔드 개발 >파이썬 튜토리얼 >Python에서 HTML 엔터티를 디코딩하는 방법은 무엇입니까?

Python에서 HTML 엔터티를 디코딩하는 방법은 무엇입니까?

DDD
DDD원래의
2024-12-16 05:20:13381검색

How to Decode HTML Entities in Python?

Python에서 HTML 엔터티 디코딩: 종합 참조

BeautifulSoup을 사용하여 HTML 콘텐츠를 구문 분석할 때 HTML 엔터티가 인코딩된 상태로 유지되는 문제가 발생할 수 있습니다. 이러한 엔터티를 디코딩하고 실제 텍스트 콘텐츠를 얻으려면 사용 중인 Python 버전에 따라 다양한 접근 방식을 사용할 수 있습니다.

Python 3.4

Python 3.4 이상에서는 html.unescape() 함수는 HTML 엔터티를 디코딩하는 간단한 방법을 제공합니다.

import html
print(html.unescape('£682m'))

이렇게 하면 원하는 출력이 반환됩니다. "£682m".

Python 2.6-3.3

Python 버전 2.6과 3.3 사이의 경우 HTMLParser.unescape() 메서드가 유용합니다.

try:
    # Python 2.6-2.7
    from HTMLParser import HTMLParser
except ImportError:
    # Python 3
    from html.parser import HTMLParser

h = HTMLParser()
print(h.unescape('£682m'))

또는, 6개의 호환성 라이브러리는 모듈 가져오기를 단순화하여 Python에서 HTMLParser를 사용할 수 있도록 합니다. 버전:

from six.moves.html_parser import HTMLParser
h = HTMLParser()
print(h.unescape('£682m'))

개발자는 이러한 Python 도구를 활용하여 HTML 엔터티를 효율적으로 디코딩하고 구문 분석 요구에 맞는 원하는 텍스트 콘텐츠를 얻을 수 있습니다.

위 내용은 Python에서 HTML 엔터티를 디코딩하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.