이 기사의 예에서는 Python이 HTML 이스케이프 문자를 처리하는 방법을 설명합니다. 참고할 수 있도록 모든 사람과 공유하세요. 세부 사항은 다음과 같습니다.
최근 Python을 사용하여 웹 페이지 데이터를 처리할 때 다음과 같은 일부 html 이스케이프 문자(html 문자 엔터티라고도 함)를 자주 발견합니다. a8093152e673feb7aba1828c43532094 문자 엔터티는 일반적으로 웹 페이지에서 예약된 문자를 나타내는 데 사용됩니다. 예를 들어 >는 브라우저가 태그라고 생각하지 않도록 하기 위해 w3school의 HTML 문자 엔터티를 참조하세요. 유용하기는 하지만 웹 데이터 구문 분석에 큰 영향을 미칠 수 있습니다. 이러한 이스케이프 문자를 처리하려면 다음과 같은 해결 방법이 있습니다.
1. HTMLParser를 사용하여
import HTMLParser html_cont = " asdfg>123<" html_parser = HTMLParser.HTMLParser() new_cont = html_parser.unescape(html_cont) print new_cont #new_cont = " asdfg>123<"다시 변환하려면(공백은 다시 변환할 수 없습니다):
import cgi new_cont = cgi.escape(new_cont) print new_cont #new_cont = " asdfg>123<"
바꾸기
아아아아
더 좋은 방법이 있을지 모르겠네요.
또한 stackoverflow는 xml에서 이스케이프 문자를 처리하는 방법에 대한 답변을 제공합니다. python - lxml을 사용하여 XML 문서에서 유사 엔터티를 처리하는 가장 좋은 방법은 무엇입니까?
Python 처리 html 이스케이프 문자와 관련된 더 많은 기사를 보려면 PHP 중국어 웹사이트를 주목하세요!