首頁 >後端開發 >Python教學 >如何在 Python 中將 XML/HTML 實體轉換為 Unicode 字串？

如何在 Python 中將 XML/HTML 實體轉換為 Unicode 字串？

Susan Sarandon原創: 2024-11-04 06:36:02642瀏覽

How to Convert XML/HTML Entities to Unicode Strings in Python?

在Python 中將XML/HTML 實體轉換為Unicode 字串

在網頁抓取中，實體常用於表示非ASCII字元。要在 Python 中解碼這些實體並取得對應的 Unicode 表示形式，您可以利用標準函式庫的 HTMLParser 模組中提供的 unescape() 函數。

例如：

假設您有以下實體：

&amp;#x01ce;

，它代表帶有聲調標記的「ǎ」。其二進位等值是 01ce（16 位元）。將此實體轉換為Unicode 值u'u01ce':

Python 3.4 及更早版本:

import HTMLParser
h = HTMLParser.HTMLParser()
unicode_string = h.unescape('&amp;copy; 2010') # u'\xa9 2010'
unicode_string = h.unescape('&amp;#169; 2010') # u'\xa9 2010'

Python 3.4 及更高版本:

import html
unicode_string = html.unescape('&amp;copy; 2010') # u'\xa9 2010'
unicode_string = html.unescape('&amp;#169; 2010') # u'\xa9 2010'

產生的unicode_string 包含所需的字串Unicode 表示形式，其中實體替換為實際的Unicode 值。

以上是如何在 Python 中將 XML/HTML 實體轉換為 Unicode 字串？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

Python html String xml function this ASCII

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：如何在 Python 中將代理對轉換為普通字串？下一篇：如何在 Python 中將代理對轉換為普通字串？

看更多