在Python 中將XML/HTML 實體轉換為Unicode 字串
在網頁抓取中,實體常用於表示非ASCII字元。要在 Python 中解碼這些實體並取得對應的 Unicode 表示形式,您可以利用標準函式庫的 HTMLParser 模組中提供的 unescape() 函數。
例如:
假設您有以下實體:
ǎ
,它代表帶有聲調標記的「ǎ」。其二進位等值是 01ce(16 位元)。將此實體轉換為Unicode 值u'u01ce':
Python 3.4 及更早版本:
import HTMLParser h = HTMLParser.HTMLParser() unicode_string = h.unescape('© 2010') # u'\xa9 2010' unicode_string = h.unescape('© 2010') # u'\xa9 2010'
Python 3.4 及更高版本:
import html unicode_string = html.unescape('© 2010') # u'\xa9 2010' unicode_string = html.unescape('© 2010') # u'\xa9 2010'
產生的unicode_string 包含所需的字串Unicode 表示形式,其中實體替換為實際的Unicode 值。
以上是如何在 Python 中將 XML/HTML 實體轉換為 Unicode 字串?的詳細內容。更多資訊請關注PHP中文網其他相關文章!