ホームページ >バックエンド開発 >Python チュートリアル >Python で HTML エンティティをデコードするには?

Python で HTML エンティティをデコードするには?

DDD
DDDオリジナル
2024-12-16 05:20:13427ブラウズ

How to Decode HTML Entities in Python?

Python での HTML エンティティのデコード: 包括的なリファレンス

BeautifulSoup を使用して HTML コンテンツを解析すると、HTML エンティティがエンコードされたままになるという問題が発生する可能性があります。これらのエンティティをデコードして実際のテキスト コンテンツを取得するには、使用している Python のバージョンに応じてさまざまなアプローチを使用できます。

Python 3.4

Python 3.4 以降では、html.unescape()関数は、HTML エンティティをデコードするための簡単な方法を提供します。

import html
print(html.unescape('£682m'))

これにより、目的の出力が返されます。 "£682m".

Python 2.6-3.3

Python バージョン 2.6 から 3.3 の場合、HTMLParser.unescape() メソッドが便利です。

try:
    # Python 2.6-2.7
    from HTMLParser import HTMLParser
except ImportError:
    # Python 3
    from html.parser import HTMLParser

h = HTMLParser()
print(h.unescape('£682m'))

あるいは、次のようになります。 6 つの互換性ライブラリによりモジュールのインポートが簡素化され、HTMLParser の使用が可能になります。 Python バージョン:

from six.moves.html_parser import HTMLParser
h = HTMLParser()
print(h.unescape('£682m'))

これらの Python ツールを利用することで、開発者は HTML エンティティを効率的にデコードし、解析ニーズに応じて必要なテキスト コンテンツを取得できます。

以上がPython で HTML エンティティをデコードするには?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。