ホームページ  >  に質問  >  本文

Python - Python3 でこのような HTML エスケープ文字に遭遇したときに '<abc>' を自動的にエスケープするにはどうすればよいですか?

私は Python を初めて使用します。scray クローラーを使用しているときに html の特殊文字に遭遇したため、Baidu でドキュメントを検索しました:

import HTMLParser
html_parser = HTMLParser.HTMLParser()
s = '&l t;abc&g t;&nbs p;' #Web ページのエスケープを避けるためにスペースを空けてください
s = html_parser.unescape(s) )

実行時プロンプト:
import markupbase
ImportError:「markupbase」という名前のモジュールがありません


翻訳ソフトウェアの助けを借りて、HTMLParser の公式ドキュメントを調べて 2 番目の方法を見つけました

from html.parser import HTMLParser

クラスMyHTMLParser(HTMLParser):

リーリー

parser = MyHTMLParser()
s = '&l t;abc&g t;&nbs p;' #Web ページのエスケープを避けるためにスペースが残されています
ss=parser.feed(s)

2 番目のメソッドは正常にテストされました。発生した問題は、戻りデータ文が無効であることです。


すみません、数行のコードでエスケープ問題を解決する方法はありますか? 2 番目のメソッドがない場合、戻り値を取得するにはどうすればよいですか?

typechotypecho2686日前984

全員に返信(1)返信します

  • 某草草

    某草草2017-06-12 09:29:01

    リーリー

    返事
    0
  • キャンセル返事