Maison > Article > développement back-end > Comment convertir des entités HTML en chaînes Unicode en Python ?
Convertir des entités XML/HTML en chaîne Unicode en Python
Question : Comment puis-je convertir une chaîne contenant des entités HTML en une chaîne Unicode dans Python? Par exemple, la chaîne "ǎ" doit être converti en "ǎ" avec une marque de ton (u'u01ce').
Réponse :
Le HTMLParser de la bibliothèque standard Python a une fonction non documentée appelée unescape(). Cette fonction peut convertir les entités HTML en leurs équivalents Unicode.
<code class="python">import HTMLParser h = HTMLParser.HTMLParser() h.unescape('&copy; 2010') # u'\xa9 2010' h.unescape('&#169; 2010') # u'\xa9 2010'</code>
Pour Python 3.4 et supérieur, le code suivant fonctionnera en utilisant le module html :
<code class="python">import html html.unescape('&copy; 2010') # u'\xa9 2010' html.unescape('&#169; 2010') # u'\xa9 2010'</code>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!