Maison  >  Article  >  développement back-end  >  Comment convertir des entités XML/HTML en Unicode en Python ?

Comment convertir des entités XML/HTML en Unicode en Python ?

Barbara Streisand
Barbara Streisandoriginal
2024-11-04 00:06:30374parcourir

How to Convert XML/HTML Entities to Unicode in Python?

Conversion d'entités XML/HTML en Unicode en Python

Défi :

Dans le web scraping , les entités HTML sont couramment utilisées pour représenter des caractères non-ASCII. Python a besoin d'un utilitaire capable de convertir une chaîne avec ces entités en un type Unicode.

Solution :

Le HTMLParser de la bibliothèque standard Python possède une fonction non documentée, unescape() , qui peut répondre efficacement à cette exigence.

Mise en œuvre :

Pour Python 3.4 et versions antérieures :

<code class="python">import HTMLParser

h = HTMLParser.HTMLParser()
result = h.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>

Pour Python 3.4 et versions ultérieures :

<code class="python">import html

result = html.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>

Exemple :

Considérons l'entité HTML ǎ, qui correspond à un "ǎ " avec une marque de ton en binaire. En utilisant unescape(), vous pouvez le convertir en valeur Unicode u'u01ce' :

<code class="python">result = h.unescape('&amp;#x01ce;')  # u'\u01ce'</code>

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn