ホームページ  >  記事  >  バックエンド開発  >  Python で HTML エンティティを Unicode 文字列に変換するにはどうすればよいですか?

Python で HTML エンティティを Unicode 文字列に変換するにはどうすればよいですか?

Mary-Kate Olsen
Mary-Kate Olsenオリジナル
2024-11-05 05:21:02354ブラウズ

How to convert HTML entities to Unicode strings in Python?

Python で XML/HTML エンティティを Unicode 文字列に変換する

質問: HTML エンティティを含む文字列を、Python で Unicode 文字列に変換するにはどうすればよいですか?パイソン?たとえば、文字列「ǎ」

答え:

Python 標準ライブラリの HTMLParser には、unescape() と呼ばれる文書化されていない関数があります。この関数は、HTML エンティティを Unicode エンティティに変換できます。

<code class="python">import HTMLParser
h = HTMLParser.HTMLParser()
h.unescape('&amp;copy; 2010') # u'\xa9 2010'
h.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>

Python 3.4 以降の場合、HTML モジュールを使用して次のコードが機能します:

<code class="python">import html
html.unescape('&amp;copy; 2010') # u'\xa9 2010'
html.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>

以上がPython で HTML エンティティを Unicode 文字列に変換するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。