Maison >développement back-end >Tutoriel XML/RSS >Problèmes de codage de caractères lorsque lxml traite XML

Problèmes de codage de caractères lorsque lxml traite XML

黄舟original: 2017-04-18 09:16:022708parcourir

Afin de simplifier le problème, le contenu de xml est simplifié sous la forme suivante :

<?xml version="1.0" encoding="gbk"?>
<DOCUMENT>
<da><![CDATA[中文，就是任性]]></da>
</DOCUMENT>

Son encodage est gbk, et l'un des nœuds est un caractère chinois . Utilisez lxml pour extraire L'exception suivante s'est produite lorsque la valeur du nœud était

lxml.etree.XMLSyntaxError: Extra content at the end of the document

Le script Python correspondant à ce moment était :

tst = u&#39;<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>&#39;
for event,element in etree.iterparse(BytesIO(tst.encode(&#39;utf-8&#39;))):
    print("%s, %s" % (element.tag, element.text))

Cependant. , avant la simplification, une autre était signalée Exception

lxml.etree.XMLSyntaxError: input conversion failed due to input error, bytes 0x8B 0x2C 0xE6 0x9D

Peu importe de quelle exception il s'agit, elle est probablement liée à la forme d'encodage des caractères.
Après diverses tentatives infructueuses, j'ai vu plus tard cet article sur le stackoverflow Le problème mentionné dans l'article est lié à la valeur d'encodage en XML. J'ai essayé d'ajouter un morceau de code

tst = u&#39;<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>&#39;
tst = tst.replace(&#39;encoding="gbk"&#39;, &#39;encoding="utf-8"&#39;)
for event,element in etree.iterparse(BytesIO(tst.encode(&#39;utf-8&#39;))):
    print("%s, %s" % (element.tag, element.text))

Ajout d'une instruction de remplacement pour remplacer le précédent encoding="gbk" par encoding:"utf-8" et finalement obtenu le résultat :

da, 中文，就是任性
DOCUMENT, None

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Exemple de code de détection XSD et XMLArticle suivant：Exemple de code de détection XSD et XML

Articles Liés

Voir plus