집 >백엔드 개발 >파이썬 튜토리얼 >Python에서 XML/HTML 엔터티를 유니코드 문자열로 변환하는 방법은 무엇입니까?

Python에서 XML/HTML 엔터티를 유니코드 문자열로 변환하는 방법은 무엇입니까?

Susan Sarandon원래의: 2024-11-04 06:36:02646검색

How to Convert XML/HTML Entities to Unicode Strings in Python?

Python에서 XML/HTML 엔터티를 유니코드 문자열로 변환

웹 스크래핑에서 엔터티는 ASCII가 아닌 문자를 나타내는 데 자주 사용됩니다. Python에서 이러한 엔터티를 디코딩하고 해당 유니코드 표현을 얻으려면 표준 라이브러리의 HTMLParser 모듈에서 사용할 수 있는 unescape() 함수를 활용할 수 있습니다.

예:

가정 다음 엔터티가 있습니다.

&amp;#x01ce;

성조 표시가 있는 "ē"를 나타냅니다. 이에 해당하는 이진수는 01ce(16비트)입니다. 이 엔터티를 유니코드 값 u'u01ce'로 변환하려면:

Python 3.4 이하:

import HTMLParser
h = HTMLParser.HTMLParser()
unicode_string = h.unescape('&amp;copy; 2010') # u'\xa9 2010'
unicode_string = h.unescape('&amp;#169; 2010') # u'\xa9 2010'

Python 3.4 이상:

import html
unicode_string = html.unescape('&amp;copy; 2010') # u'\xa9 2010'
unicode_string = html.unescape('&amp;#169; 2010') # u'\xa9 2010'

결과 unicode_string에는 실제 유니코드 값으로 대체된 엔터티와 함께 문자열의 원하는 유니코드 표현이 포함됩니다.

위 내용은 Python에서 XML/HTML 엔터티를 유니코드 문자열로 변환하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python html String xml function this ASCII

성명：

이전 기사：Python에서 대리 쌍을 일반 문자열로 변환하는 방법은 무엇입니까?다음 기사：Python에서 대리 쌍을 일반 문자열로 변환하는 방법은 무엇입니까?