Maison >développement back-end >Tutoriel Python >Comment décoder des entités HTML en Python ?

Comment décoder des entités HTML en Python ?

DDD
DDDoriginal
2024-12-16 05:20:13381parcourir

How to Decode HTML Entities in Python?

Décodage des entités HTML en Python : une référence complète

Lors de l'analyse du contenu HTML à l'aide de BeautifulSoup, on peut rencontrer des problèmes avec les entités HTML restant encodées. Pour décoder ces entités et obtenir le contenu textuel réel, diverses approches peuvent être utilisées en fonction de la version de Python utilisée.

Python 3.4

Dans Python 3.4 et supérieur, le html.unescape() La fonction offre une méthode simple pour décoder les entités HTML :

import html
print(html.unescape('£682m'))

Cela renverra le résultat souhaité : "682 millions de livres sterling".

Python 2.6-3.3

Pour les versions Python comprises entre 2.6 et 3.3, la méthode HTMLParser.unescape() s'avère utile :

try:
    # Python 2.6-2.7
    from HTMLParser import HTMLParser
except ImportError:
    # Python 3
    from html.parser import HTMLParser

h = HTMLParser()
print(h.unescape('£682m'))

Alternativement, les six bibliothèques de compatibilité peuvent simplifier les importations de modules, permettant l'utilisation de HTMLParser sur Python versions :

from six.moves.html_parser import HTMLParser
h = HTMLParser()
print(h.unescape('£682m'))

En utilisant ces outils Python, les développeurs peuvent décoder efficacement les entités HTML et obtenir le contenu textuel souhaité pour leurs besoins d'analyse.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn