Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimana untuk menukar entiti HTML ke rentetan Unicode dalam Python?

Bagaimana untuk menukar entiti HTML ke rentetan Unicode dalam Python?

Mary-Kate Olsen
Mary-Kate Olsenasal
2024-11-05 05:21:02533semak imbas

How to convert HTML entities to Unicode strings in Python?

Tukar Entiti XML/HTML ke dalam Rentetan Unikod dalam Python

Soalan: Bagaimana saya boleh menukar rentetan yang mengandungi entiti HTML kepada rentetan Unikod dalam Ular sawa? Contohnya, rentetan "ǎ" hendaklah ditukar kepada "ǎ" dengan tanda nada (u'u01ce').

Jawapan:

HTMLParser perpustakaan standard Python mempunyai fungsi tidak berdokumen dipanggil unescape(). Fungsi ini boleh menukar entiti HTML kepada setara Unicode mereka.

<code class="python">import HTMLParser
h = HTMLParser.HTMLParser()
h.unescape('&amp;copy; 2010') # u'\xa9 2010'
h.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>

Untuk Python 3.4 dan ke atas, kod berikut akan berfungsi menggunakan modul html:

<code class="python">import html
html.unescape('&amp;copy; 2010') # u'\xa9 2010'
html.unescape('&amp;#169; 2010') # u'\xa9 2010'</code>

Atas ialah kandungan terperinci Bagaimana untuk menukar entiti HTML ke rentetan Unicode dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn