>  Q&A  >  본문

python - python3에서 이러한 HTML 이스케이프 문자를 발견하면 '<abc>'를 자동으로 이스케이프하는 방법은 무엇입니까?

스크레이 크롤러를 처음 사용하다가 html의 특수 문자를 발견해서 Baidu에서 문서를 검색했습니다.

import HTMLParser
html_parser = HTMLParser.HTMLParser()
s = '&l t;abc&g t;&nbs p;' # 웹 페이지 이스케이프를 방지하기 위해 공백이 남습니다
s = html_parser.unescape(s)

런타임 프롬프트:
import markupbase
ImportError: 'markupbase'라는 모듈이 없습니다


번역 소프트웨어의 도움으로 공식 HTMLParser 문서를 읽고 두 번째 방법을 찾았습니다

html.parser에서 HTMLParser 가져오기

클래스 MyHTMLParser(HTMLParser):

으아악

parser = MyHTMLParser()
s = '&l t;abc&g t;&nbs p;' #웹페이지 이스케이프를 방지하기 위해 공백이 남습니다
ss=parser.feed(s)

두 번째 방법은 성공적으로 테스트되었습니다. 발생한 문제는 반환 데이터 문장이 유효하지 않다는 것입니다.


죄송합니다. 코드 몇 줄만으로 이스케이프 문제를 해결할 수 있는 방법이 있나요? 두 번째 방법이 없다면 어떻게 반환 값을 얻을 수 있나요?

typechotypecho2686일 전980

모든 응답(1)나는 대답할 것이다

  • 某草草

    某草草2017-06-12 09:29:01

    으아악

    회신하다
    0
  • 취소회신하다