>  기사  >  백엔드 개발  >  Python은 HTML 이스케이프 문자를 처리합니다.

Python은 HTML 이스케이프 문자를 처리합니다.

高洛峰
高洛峰원래의
2017-03-01 13:27:571961검색

이 기사의 예에서는 Python이 HTML 이스케이프 문자를 처리하는 방법을 설명합니다. 참고할 수 있도록 모든 사람과 공유하세요. 세부 사항은 다음과 같습니다.

최근 Python을 사용하여 웹 페이지 데이터를 처리할 때 다음과 같은 일부 html 이스케이프 문자(html 문자 엔터티라고도 함)를 자주 발견합니다. a8093152e673feb7aba1828c43532094 문자 엔터티는 일반적으로 웹 페이지에서 예약된 문자를 나타내는 데 사용됩니다. 예를 들어 >는 브라우저가 태그라고 생각하지 않도록 하기 위해 w3school의 HTML 문자 엔터티를 참조하세요. 유용하기는 하지만 웹 데이터 구문 분석에 큰 영향을 미칠 수 있습니다. 이러한 이스케이프 문자를 처리하려면 다음과 같은 해결 방법이 있습니다.

1. HTMLParser를 사용하여

import HTMLParser
html_cont = " asdfg>123<"
html_parser = HTMLParser.HTMLParser()
new_cont = html_parser.unescape(html_cont)
print new_cont #new_cont = " asdfg>123<"

다시 변환하려면(공백은 다시 변환할 수 없습니다):

import cgi
new_cont = cgi.escape(new_cont)
print new_cont #new_cont = " asdfg>123<"

바꾸기

아아아아

더 좋은 방법이 있을지 모르겠네요.

또한 stackoverflow는 xml에서 이스케이프 문자를 처리하는 방법에 대한 답변을 제공합니다. python - lxml을 사용하여 XML 문서에서 유사 엔터티를 처리하는 가장 좋은 방법은 무엇입니까?


Python 처리 html 이스케이프 문자와 관련된 더 많은 기사를 보려면 PHP 중국어 웹사이트를 주목하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.