Maison >développement back-end >Tutoriel Python >Comment convertir des entités XML/HTML en chaînes Unicode en Python ?

Comment convertir des entités XML/HTML en chaînes Unicode en Python ?

Susan Sarandon
Susan Sarandonoriginal
2024-11-04 06:36:02565parcourir

How to Convert XML/HTML Entities to Unicode Strings in Python?

Conversion d'entités XML/HTML en chaînes Unicode en Python

Dans le web scraping, les entités sont fréquemment utilisées pour représenter des caractères non-ASCII. Pour décoder ces entités en Python et obtenir la représentation Unicode correspondante, vous pouvez utiliser la fonction unescape() disponible dans le module HTMLParser de la bibliothèque standard.

Exemple :

Supposons vous avez l'entité suivante :

ǎ

qui représente un "ǎ" avec une marque de ton. L'équivalent binaire de ceci est 01ce (16 bits). Pour convertir cette entité en valeur Unicode u'u01ce' :

Python 3.4 et versions antérieures :

import HTMLParser
h = HTMLParser.HTMLParser()
unicode_string = h.unescape('© 2010') # u'\xa9 2010'
unicode_string = h.unescape('© 2010') # u'\xa9 2010'

Python 3.4 et versions ultérieures :

import html
unicode_string = html.unescape('© 2010') # u'\xa9 2010'
unicode_string = html.unescape('© 2010') # u'\xa9 2010'

La chaîne unicode_string résultante contient la représentation Unicode souhaitée de la chaîne avec les entités remplacées par leurs valeurs Unicode réelles.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn