在Python 中將XML/HTML 實體轉換為Unicode
挑戰:
挑戰:挑戰:
挑戰:
挑戰:
<code class="python">import HTMLParser h = HTMLParser.HTMLParser() result = h.unescape('&copy; 2010') # u'\xa9 2010'</code>
在:
<code class="python">import html result = html.unescape('&copy; 2010') # u'\xa9 2010'</code>挑戰網頁抓取中, HTML 實體通常用於表示非ASCII 字元。 Python 需要一個實用程序,可以將包含這些實體的字串轉換為 Unicode 類型。
解:
Python 標準函式庫的 HTMLParser 擁有一個未記錄的函數 unescape() ,可以有效滿足這個需求。<code class="python">result = h.unescape('&#x01ce;') # u'\u01ce'</code>實作:對於Python 3.4 及更早版本:範例:考慮HTML 實體ǎ,它對應於「ǎ」 " 帶有二進位聲調標記。
以上是如何在 Python 中將 XML/HTML 實體轉換為 Unicode?的詳細內容。更多資訊請關注PHP中文網其他相關文章!