首頁  >  文章  >  後端開發  >  如何在 Python 中將 HTML 實體轉換為 Unicode 字串?

如何在 Python 中將 HTML 實體轉換為 Unicode 字串?

Mary-Kate Olsen
Mary-Kate Olsen原創
2024-11-05 05:21:02354瀏覽

How to convert HTML entities to Unicode strings in Python?

在Python 中將XML/HTML 實體轉換為Unicode 字串

問題:如何將包含HTML 實體的字串轉換為Unicode字串Python?例如,字串「ǎ」應轉換為帶有聲調標記 (u'u01ce') 的「ǎ」。

答案:

Python 標準函式庫的 HTMLParser 有一個未公開的函數,稱為 unescape()。此函數可以將 HTML 實體轉換為其 Unicode 等效項。

<code class="python">import HTMLParser
h = HTMLParser.HTMLParser()
h.unescape('&amp;copy; 2010') # u'\xa9 2010'
h.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>

對於 Python 3.4 及更高版本,以下程式碼將使用 html 模組:

<code class="python">import html
html.unescape('&amp;copy; 2010') # u'\xa9 2010'
html.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>

以上是如何在 Python 中將 HTML 實體轉換為 Unicode 字串?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn