在Python 中將XML/HTML 實體轉換為Unicode 字串
問題:如何將包含HTML 實體的字串轉換為Unicode字串Python?例如,字串「ǎ」應轉換為帶有聲調標記 (u'u01ce') 的「ǎ」。
答案:
Python 標準函式庫的 HTMLParser 有一個未公開的函數,稱為 unescape()。此函數可以將 HTML 實體轉換為其 Unicode 等效項。
<code class="python">import HTMLParser h = HTMLParser.HTMLParser() h.unescape('&copy; 2010') # u'\xa9 2010' h.unescape('&#169; 2010') # u'\xa9 2010'</code>
對於 Python 3.4 及更高版本,以下程式碼將使用 html 模組:
<code class="python">import html html.unescape('&copy; 2010') # u'\xa9 2010' html.unescape('&#169; 2010') # u'\xa9 2010'</code>
以上是如何在 Python 中將 HTML 實體轉換為 Unicode 字串?的詳細內容。更多資訊請關注PHP中文網其他相關文章!