首頁  >  文章  >  後端開發  >  如何在 Python 中將 XML/HTML 實體轉換為 Unicode 字串?

如何在 Python 中將 XML/HTML 實體轉換為 Unicode 字串?

Susan Sarandon
Susan Sarandon原創
2024-11-04 06:36:02397瀏覽

How to Convert XML/HTML Entities to Unicode Strings in Python?

在Python 中將XML/HTML 實體轉換為Unicode 字串

在網頁抓取中,實體常用於表示非ASCII字元。要在 Python 中解碼這些實體並取得對應的 Unicode 表示形式,您可以利用標準函式庫的 HTMLParser 模組中提供的 unescape() 函數。

例如:

假設您有以下實體:

ǎ

,它代表帶有聲調標記的「ǎ」。其二進位等值是 01ce(16 位元)。將此實體轉換為Unicode 值u'u01ce':

Python 3.4 及更早版本:

import HTMLParser
h = HTMLParser.HTMLParser()
unicode_string = h.unescape('© 2010') # u'\xa9 2010'
unicode_string = h.unescape('© 2010') # u'\xa9 2010'

Python 3.4 及更高版本:

import html
unicode_string = html.unescape('© 2010') # u'\xa9 2010'
unicode_string = html.unescape('© 2010') # u'\xa9 2010'

產生的unicode_string 包含所需的字串Unicode 表示形式,其中實體替換為實際的Unicode 值。

以上是如何在 Python 中將 XML/HTML 實體轉換為 Unicode 字串?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn