首頁 >後端開發 >Python教學 >如何在 Python 中將 XML/HTML 實體轉換為 Unicode？

如何在 Python 中將 XML/HTML 實體轉換為 Unicode？

How to Convert XML/HTML Entities to Unicode in Python?

在Python 中將XML/HTML 實體轉換為Unicode

挑戰：

挑戰：

挑戰：

<code class="python">import HTMLParser

h = HTMLParser.HTMLParser()
result = h.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>

在：

<code class="python">import html

result = html.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>

挑戰網頁抓取中, HTML 實體通常用於表示非ASCII 字元。 Python 需要一個實用程序，可以將包含這些實體的字串轉換為 Unicode 類型。

解：

Python 標準函式庫的 HTMLParser 擁有一個未記錄的函數 unescape() ，可以有效滿足這個需求。

<code class="python">result = h.unescape('&amp;#x01ce;')  # u'\u01ce'</code>

實作：對於Python 3.4 及更早版本：範例：考慮HTML 實體ǎ，它對應於「ǎ」 " 帶有二進位聲調標記。

以上是如何在 Python 中將 XML/HTML 實體轉換為 Unicode？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

看更多