在 Python 中将 XML/HTML 实体转换为 Unicode 字符串
问题:如何将包含 HTML 实体的字符串转换为 Unicode 字符串Python?例如,字符串“ǎ”应转换为带有声调标记 (u'u01ce') 的“ǎ”。
答案:
Python 标准库的 HTMLParser 有一个未公开的函数,称为 unescape()。此函数可以将 HTML 实体转换为其 Unicode 等效项。
<code class="python">import HTMLParser h = HTMLParser.HTMLParser() h.unescape('&copy; 2010') # u'\xa9 2010' h.unescape('&#169; 2010') # u'\xa9 2010'</code>
对于 Python 3.4 及更高版本,以下代码将使用 html 模块:
<code class="python">import html html.unescape('&copy; 2010') # u'\xa9 2010' html.unescape('&#169; 2010') # u'\xa9 2010'</code>
以上是如何在 Python 中将 HTML 实体转换为 Unicode 字符串?的详细内容。更多信息请关注PHP中文网其他相关文章!