详解lxml处理xml时的字符编码问题-XML/RSS教程-PHP中文网

首页

后端开发

XML/RSS教程

详解lxml处理xml时的字符编码问题

黄舟

Mar 17, 2017 pm 04:53 PM

为了简化问题，就把xml的内容简化为如下的形式:

<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>

它的encoding为gbk，其中的节点有一个为中文字符
使用lxml提取节点的值时出现了如下的异常

lxml.etree.XMLSyntaxError: Extra content at the end of the document

此时对应的Python脚本为：

tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>'
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))

不过简化之前，报的是另外一个异常

lxml.etree.XMLSyntaxError: input conversion failed due to input error, bytes 0x8B 0x2C 0xE6 0x9D

不论异常是哪一个，猜测还是和字符的编码形式有关。
经过各种尝试无果，后来在stackoverflow上看到这篇文章，文中提到的问题和xml中的encoding值有关，尝试了增加了一段代码

tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>'
tst = tst.replace('encoding="gbk"', 'encoding="utf-8"')
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))

增加了一个替换的语句，将之前的encoding="gbk"替换成encoding:"utf-8"
于是终于得到了结果：

da, 中文，就是任性
DOCUMENT, None

以上是详解lxml处理xml时的字符编码问题的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

RSS和XML：了解Web内容的动态二重奏Apr 19, 2025 am 12:03 AM

RSS和XML是用于网络内容管理的工具。RSS用于发布和订阅内容，XML用于存储和传输数据。它们的工作原理包括内容发布、订阅和更新推送。使用示例包括RSS发布博客文章和XML存储书籍信息。

RSS文档：Web联合组织的基础Apr 18, 2025 am 12:04 AM

RSS文档是基于XML的结构化文件，用于发布和订阅频繁更新的内容。它的主要作用包括：1)自动化内容更新，2)内容聚合，3)提高浏览效率。通过RSSfeed，用户可以订阅并及时获取来自不同来源的最新信息。

解码RSS：内容提要的XML结构Apr 17, 2025 am 12:09 AM

RSS的XML结构包括：1.XML声明和RSS版本，2.频道（Channel），3.条目（Item）。这些部分构成了RSS文件的基础，允许用户通过解析XML数据来获取和处理内容信息。

如何解析和利用基于XML的RSS提要Apr 16, 2025 am 12:05 AM

RSSFEEDSUSEXMLTOSYNDICATECONTENT; PARSINGTHEMINVOLVESLOADINGINGINGINGINSSTRUCTURE，andExtractingData.ApplicationsIncludeBuildBuildingNewSagGregatorSaterNewSagGregatorSator andTrackingPodcastepodcastepisodes。

RSS文档：他们如何提供您喜欢的内容Apr 15, 2025 am 12:01 AM

RSS文档的工作原理是通过XML文件发布内容更新，用户通过RSS阅读器订阅并接收通知。1.内容发布者创建并更新RSS文档。2.RSS阅读器定期访问并解析XML文件。3.用户浏览和阅读更新内容。使用示例：订阅TechCrunch的RSS源，只需复制链接到RSS阅读器中即可。

用XML建造供稿：RSS的动手指南Apr 14, 2025 am 12:17 AM

使用XML构建RSSfeed的步骤如下：1.创建根元素并设置版本；2.添加channel元素及其基本信息；3.添加条目（item）元素，包括标题、链接和描述；4.转换XML结构为字符串并输出。通过这些步骤，你可以从零开始创建一个有效的RSSfeed，并通过添加额外的元素如发布日期和作者信息来增强其功能。

创建RSS文档：逐步教程Apr 13, 2025 am 12:10 AM

创建RSS文档的步骤如下：1.使用XML格式编写，根元素为，包含元素。2.在内添加、、等元素描述频道信息。3.添加元素，每个代表一个内容条目，包含、、、等。4.可选地添加和元素，丰富内容。5.确保XML格式正确，使用在线工具验证，优化性能并保持内容更新。

XML在RSS中的作用：联合内容的基础Apr 12, 2025 am 12:17 AM

XML在RSS中的核心作用是提供一种标准化和灵活的数据格式。1.XML的结构和标记语言特性使其适合数据交换和存储。2.RSS利用XML创建标准化格式，方便内容共享。3.XML在RSS中的应用包括定义feed内容的元素，如标题和发布日期。4.优势包括标准化和可扩展性，挑战包括文件冗长和严格语法要求。5.最佳实践包括验证XML有效性、保持简洁、使用CDATA和定期更新。

See all articles