Heim > Artikel > Backend-Entwicklung > Wie konvertiert man HTML-Entitäten in Python in Unicode-Strings?
XML/HTML-Entitäten in einen Unicode-String in Python konvertieren
Frage: Wie kann ich einen String, der HTML-Entitäten enthält, in einen Unicode-String konvertieren? Python? Beispielsweise ist die Zeichenfolge „ǎ“ sollte in „ǎ“ mit einer Tonmarkierung (u'u01ce') konvertiert werden.
Antwort:
Der HTMLParser der Python-Standardbibliothek verfügt über eine undokumentierte Funktion namens unescape(). Diese Funktion kann HTML-Entitäten in ihre Unicode-Äquivalente konvertieren.
<code class="python">import HTMLParser h = HTMLParser.HTMLParser() h.unescape('&copy; 2010') # u'\xa9 2010' h.unescape('&#169; 2010') # u'\xa9 2010'</code>
Für Python 3.4 und höher funktioniert der folgende Code mit dem HTML-Modul:
<code class="python">import html html.unescape('&copy; 2010') # u'\xa9 2010' html.unescape('&#169; 2010') # u'\xa9 2010'</code>
Das obige ist der detaillierte Inhalt vonWie konvertiert man HTML-Entitäten in Python in Unicode-Strings?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!