Heim  >  Artikel  >  Backend-Entwicklung  >  Wie konvertiert man XML/HTML-Entitäten in Python in Unicode-Strings?

Wie konvertiert man XML/HTML-Entitäten in Python in Unicode-Strings?

Susan Sarandon
Susan SarandonOriginal
2024-11-04 06:36:02397Durchsuche

How to Convert XML/HTML Entities to Unicode Strings in Python?

Konvertieren von XML/HTML-Entitäten in Unicode-Strings in Python

Beim Web Scraping werden Entitäten häufig zur Darstellung von Nicht-ASCII-Zeichen verwendet. Um diese Entitäten in Python zu dekodieren und die entsprechende Unicode-Darstellung zu erhalten, können Sie die Funktion unescape() verwenden, die im HTMLParser-Modul der Standardbibliothek verfügbar ist.

Beispiel:

Angenommen Sie haben die folgende Entität:

ǎ

die ein „ǎ“ mit einer Tonmarkierung darstellt. Das binäre Äquivalent dazu ist 01ce (16 Bit). So konvertieren Sie diese Entität in den Unicode-Wert u'u01ce':

Python 3.4 und früher:

import HTMLParser
h = HTMLParser.HTMLParser()
unicode_string = h.unescape('© 2010') # u'\xa9 2010'
unicode_string = h.unescape('© 2010') # u'\xa9 2010'

Python 3.4 und höher:

import html
unicode_string = html.unescape('© 2010') # u'\xa9 2010'
unicode_string = html.unescape('© 2010') # u'\xa9 2010'

Der resultierende unicode_string enthält die gewünschte Unicode-Darstellung des Strings, wobei die Entitäten durch ihre tatsächlichen Unicode-Werte ersetzt werden.

Das obige ist der detaillierte Inhalt vonWie konvertiert man XML/HTML-Entitäten in Python in Unicode-Strings?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn