Heim >Backend-Entwicklung >Python-Tutorial >Wie dekodiere ich HTML-Entitäten in Python?

Wie dekodiere ich HTML-Entitäten in Python?

DDD
DDDOriginal
2024-12-16 05:20:13371Durchsuche

How to Decode HTML Entities in Python?

HTML-Entitäten in Python dekodieren: Eine umfassende Referenz

Beim Parsen von HTML-Inhalten mit BeautifulSoup kann es zu Problemen kommen, wenn HTML-Entitäten codiert bleiben. Um diese Entitäten zu dekodieren und den tatsächlichen Textinhalt zu erhalten, können je nach verwendeter Python-Version verschiedene Ansätze verwendet werden.

Python 3.4

In Python 3.4 und höher ist html.unescape() Die Funktion bietet eine einfache Methode zum Dekodieren von HTML-Entitäten:

import html
print(html.unescape('£682m'))

Dies gibt die gewünschte Ausgabe zurück: „£682m“.

Python 2.6-3.3

Für Python-Versionen zwischen 2.6 und 3.3 erweist sich die Methode HTMLParser.unescape() als nützlich:

try:
    # Python 2.6-2.7
    from HTMLParser import HTMLParser
except ImportError:
    # Python 3
    from html.parser import HTMLParser

h = HTMLParser()
print(h.unescape('£682m'))

Alternativ: Die sechs Kompatibilitätsbibliotheken können Modulimporte vereinfachen und die Verwendung von HTMLParser in Python ermöglichen Versionen:

from six.moves.html_parser import HTMLParser
h = HTMLParser()
print(h.unescape('£682m'))

Durch die Verwendung dieser Python-Tools können Entwickler HTML-Entitäten effizient dekodieren und den gewünschten Textinhalt für ihre Analyseanforderungen erhalten.

Das obige ist der detaillierte Inhalt vonWie dekodiere ich HTML-Entitäten in Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn