在 Python 中将 XML/HTML 实体转换为 Unicode 字符串
在网页抓取中,实体经常用于表示非 ASCII 字符。要在 Python 中解码这些实体并获取相应的 Unicode 表示形式,您可以利用标准库的 HTMLParser 模块中提供的 unescape() 函数。
示例:
假设您有以下实体:
ǎ
,它代表带有声调标记的“ǎ”。其二进制等效值是 01ce(16 位)。将此实体转换为 Unicode 值 u'u01ce':
Python 3.4 及更早版本:
import HTMLParser h = HTMLParser.HTMLParser() unicode_string = h.unescape('© 2010') # u'\xa9 2010' unicode_string = h.unescape('© 2010') # u'\xa9 2010'
Python 3.4 及更高版本:
import html unicode_string = html.unescape('© 2010') # u'\xa9 2010' unicode_string = html.unescape('© 2010') # u'\xa9 2010'
生成的 unicode_string 包含所需的字符串 Unicode 表示形式,其中实体替换为实际的 Unicode 值。
以上是如何在 Python 中将 XML/HTML 实体转换为 Unicode 字符串?的详细内容。更多信息请关注PHP中文网其他相关文章!