Python で XML/HTML エンティティを Unicode 文字列に変換する
質問: HTML エンティティを含む文字列を、Python で Unicode 文字列に変換するにはどうすればよいですか?パイソン?たとえば、文字列「ǎ」
答え:
Python 標準ライブラリの HTMLParser には、unescape() と呼ばれる文書化されていない関数があります。この関数は、HTML エンティティを Unicode エンティティに変換できます。
<code class="python">import HTMLParser h = HTMLParser.HTMLParser() h.unescape('&copy; 2010') # u'\xa9 2010' h.unescape('&#169; 2010') # u'\xa9 2010'</code>
Python 3.4 以降の場合、HTML モジュールを使用して次のコードが機能します:
<code class="python">import html html.unescape('&copy; 2010') # u'\xa9 2010' html.unescape('&#169; 2010') # u'\xa9 2010'</code>
以上がPython で HTML エンティティを Unicode 文字列に変換するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。