首页  >  文章  >  后端开发  >  如何在 Python 中将 HTML 实体转换为 Unicode 字符串?

如何在 Python 中将 HTML 实体转换为 Unicode 字符串?

Mary-Kate Olsen
Mary-Kate Olsen原创
2024-11-05 05:21:02353浏览

How to convert HTML entities to Unicode strings in Python?

在 Python 中将 XML/HTML 实体转换为 Unicode 字符串

问题:如何将包含 HTML 实体的字符串转换为 Unicode 字符串Python?例如,字符串“ǎ”应转换为带有声调标记 (u'u01ce') 的“ǎ”。

答案:

Python 标准库的 HTMLParser 有一个未公开的函数,称为 unescape()。此函数可以将 HTML 实体转换为其 Unicode 等效项。

<code class="python">import HTMLParser
h = HTMLParser.HTMLParser()
h.unescape('&amp;copy; 2010') # u'\xa9 2010'
h.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>

对于 Python 3.4 及更高版本,以下代码将使用 html 模块:

<code class="python">import html
html.unescape('&amp;copy; 2010') # u'\xa9 2010'
html.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>

以上是如何在 Python 中将 HTML 实体转换为 Unicode 字符串?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn