搜索
首页后端开发XML/RSS教程XML入门的常见问题(三)

XML入门的常见问题(三)

Dec 22, 2016 pm 05:38 PM
xml

如何加载有外国和特殊字符的文档?

  文档可以包含外国字符,例如:


   foreign characters (úóí?) 


  例如 磲 的外国字符必须在前面加上 escape 序列。外国字符可以是 UTF-8 编码或用不同编码指定,如下所示:


   foreign characters (磲) 


  现在可以正确加载 xml 了。

  其他字符是保留在 XML 中的,并且需要以不同的方式处理。下面的 XML:


   This & that
  产生如下错误:
  此处不允许有空格。
  行 0000001: This & that
  位置  0000012: ----------^


  此处 & 是 XML 句法结构的一部分,如果它仅仅放在 XML 数据源内部,那么不能解释为 &。您需要替换称为“实体”的特殊字符序列。

  This & that
  下面的字符需要相应的实体:


   < <
  & &
  > >
  " "
  ' '


  引号字符被用作标记中属性值的定界符,因此通常不能在属性值的内部使用。例如,下面的内容将返回错误:

  此处的单引号既用作属性定界符,又在属性值自身中。为了纠正这个问题,可以将属性定界符换成双引号:

  或者可以将单引号转义为实体 '

  上述两种方式都将通过 XML 对象模型中的 getAttribute 方法返回属性值 John's Stuff。同样,对于双引号,您可以使用实体
  "。
  也可以通过将文本放在 CDATA 节中来处理元素内容中的特殊字符。下面的内容是正确的:

  在本例子中,XML 对象模型将 CDATA 节点显示 xml 节点的子节点,它将返回字符串

  This & that  is just "text" content.
  作为 nodeValue。

  如何在 Visual Studio 6.0 C++ 中使用 MSXML COM 组件?

  在 Visual C++ 6.0 中使用 MSXML COM 组件的最简便方式是使用 #import 指令:

  #import "msxml.dll" named_guids no_namespace#import "msxml.dll" named_guids no_namespace
  它定义了所有 IXML* 接口和接口 ID,从而可以在应用程序中使用它们了。也可以从 INETSDK 获取 MSXML 类型库和头文件(英文),以及包含类 IIDs 的 uuid.lib。

  如何在 XML 中使用 HTML 实体?

  下面的 XML 包含 HTML 实体:


   Copyright ? 2000, Microsoft Inc, All rights reserved.


  它产生下列错误:


   引用未定义的实体 'copy'。
  行: 1, 位置:23, 错误码:0xC00CE002
  Copyright ? 2000, ...
  ----------------------^


  这是因为 XML 只有五个内置实体。关于内置实体的详细信息,请参阅如何加载有外国和特殊字符的文档?。

  要使用 HTML 实体,需要用 DTD 定义它们。有关 DTD 的详细信息,请参阅 W3C XML 建议(英文)。要使用该 DTD,请将它直接包括在 DOCTYPE 标记中,如下所示:


   Copyright ? 2000, Microsoft Inc, All rights reserved.

 

  要加载它,需要关闭 IXMLDOMDocument 接口的 validateOnParse 属性。请尝试将它粘贴到“Validator 测试页”中,关闭 DTD 验证,然后单击“验证”。请注意文档将加载,并且版权字符将显示在 validator 页面的末尾的 DOM 树中。

  如果已经完成了 DTD 验证,那么必须将作为参数实体的 HTML 实体包括在现有的 DTD 中,如下所示:


   %HTMLENT;
  %HTMLENT;


  它将定义所有 HTML 实体,以便在 XML 文档中使用它们。

  在元素内容中如何处理空白字符?

  XML DOM 有三种访问元素文本内容的方式:

  属性 行为

  nodeValue 按照原始的 XML 源中指定的那样,返回 TEXT、CDATA、COMMENT 和 PI 节点上的原始文本内容(包括空白字符)。对于 ELEMENT 节点和 DOCUMENT 本身,则返回空值。

  数据 与 nodeValue 相同

  文本 重复连接指定子树中的多个 TEXT 和 CDATA 节点并返回组合结果。

  注意: 空白字符包括新行、tab 和空格。

  nodeValue 属性通常返回原始文档中的内容,与文档如何加载和当前 xml:space 范围无关。

  文本属性连接指定子树中的所有文本并扩展实体。这与文档如何加载、PReserveWhiteSpace 开关的当前状态和当前 xml:space 范围有关,请看如下所示:

  preserveWhiteSpace = true when the document is loaded 

preserveWhiteSpace=true    preserveWhiteSpace=true    preserveWhiteSpace=false    preserveWhiteSpace=false    

xml:space=preserve    xml:space=default    xml:space=preserve    xml:space=default    

保留    保留    保留    保留并截断    


  preserveWhiteSpace = false when the document is loaded 

preserveWhiteSpace=true    preserveWhiteSpace=true    preserveWhiteSpace=false    preserveWhiteSpace=false    

xml:space=preserve    xml:space=default    xml:space=preserve    xml:space=default    

半保留    半保留并截断    半保留    半保留并截断    


  此处的保留表示和原始 XML 文档中完全相同的原始文本内容,截断意味着前导和尾部空格已经删除,半保留意味着保留了“重要的空白字符”并规范化了“不重要的空白字符”。重要的空白字符是文本内容内部的空白字符。不重要的空白字符是标记之间的空白字符,请看如下所示:

   \n
  \t    Jane\n
  \tSmith     \n


  在本示例中,红色是可以忽略的不重要的空白字符,而绿色是重要的空白字符,因为它是文本内容的一部分,因此有不可忽略的重要含义。所以在本例中,文本属性返回下列结果:

  状态 返回值 
  保留 "\n\t    Jane\n\tSmith    \n"
  
  保留并截断 "Jane\n\tSmith"
  
  半保留 "    Jane Smith    "
  
  半保留并截断 "Jane Smith"

  请注意“半保留”将规范化不重要的空白字符,例如,新行和 tab 字符将退化为单个空格。如果更改 xml:space 属性和 preserveWhiteSpace 开关,那么文本属性将返回相应的不同值。

  CDATA and xml:space="preserve" subtree boundaries 
  在下面的例子中,CDATA 节点或“保留”节点的内容将得到连接,原因是它们不参与不重要的空白字符规范化。例如:


   \n
  \t Jane \n
  \t     Smith     ]>\n


  在这种情况下,CDATA 节点内部的空白字符不再与“不重要”空白字符“合并”,并且不会截断。因此“半保留并截断”情况将返回下列内容:

  "Jane      Smith     "

  在此, 和 标记之间的不重要的空白字符将包括在内,与 CDATA 节点的内容无关。如果用下列内容代替 CDATA,那么将返回相同结果:

  Smith     
  实体是特殊的

  实体是作为 DTD 的一部分加载和分析的,并且显示在 DOCTYPE 节点下。它们不一定要有任何 xml:space 范围。例如:


   Jane \n
  \t\n
  ">
  ]>
  &Jane;


  假定 preserveWhiteSpace=false(在 DOCTYPE 标记范围内),在分析实体时不重要的空白字符丢失。实体将不会有空白字符节点。树将类似于:


   DOCTYPE foo
  ENTITY: Jane
  ELEMENT: employee
  ELEMENT: name
  TEXT: Jane 
  ELEMENT: title
  TEXT>:Software Design Engineer
  ELEMENT: foo
  ATTRIBUTE: xml:space="preserve"
  ENTITYREF: Jane


  请注意,在 DOCTYPE 内部 ENTITY 节点下显露的 DOM 树不包含任何 WHITESPACE 节点。这意味着 ENTITYREF 节点的子节点也没有 WHITESPACE 节点,即使实体引用在 xml:space="preserve" 的范围内也是这样。

  给定文档中引用的每个 ENTITY 的实例通常都有相同的树。

  如果实体必须绝对保留空白字符,那么它必须在自己内部指定自己的 xml:space 属性,或者文档 preserveWhiteSpace 开关必须设置为 true。

  如何处理属性中的空白字符?

  有几种方式可以访问属性值。IXMLDOMAttribute 接口有 nodeValue 属性,它等价于作为 Microsoft 扩展的 nodeValue 和 text 属性。这些属性返回: 属性 返回的文本


   attrNode.nodeValue
  attrNode.value
  getAttribute("name") 返回和原始文档中完全相同的内容(和扩展的实体)。 
  attrNode.nodeTypedValue Null 
  attrNode.text 除了前导和尾部的空白字符已经截断之外,其他与 nodeValue 相同。 


  “XML 语言”规范为 XML 应用程序定义了下列行为: 属性类型 返回的文本 
  CDATA ID、IDREF、IDREFS、ENTITY、ENTITIES、NOTATION、枚举

  半规范化 全规范化

  在此半规范化代表将新行和 tab 字符转换为空格,但是多个空格不会退化为一个空格。

 以上就是XML入门的常见问题(三)的内容,更多相关内容请关注PHP中文网(www.php.cn)!


声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
创建RSS文档:逐步教程创建RSS文档:逐步教程Apr 13, 2025 am 12:10 AM

创建RSS文档的步骤如下:1.使用XML格式编写,根元素为,包含元素。2.在内添加、、等元素描述频道信息。3.添加元素,每个代表一个内容条目,包含、、、等。4.可选地添加和元素,丰富内容。5.确保XML格式正确,使用在线工具验证,优化性能并保持内容更新。

XML在RSS中的作用:联合内容的基础XML在RSS中的作用:联合内容的基础Apr 12, 2025 am 12:17 AM

XML在RSS中的核心作用是提供一种标准化和灵活的数据格式。1.XML的结构和标记语言特性使其适合数据交换和存储。2.RSS利用XML创建标准化格式,方便内容共享。3.XML在RSS中的应用包括定义feed内容的元素,如标题和发布日期。4.优势包括标准化和可扩展性,挑战包括文件冗长和严格语法要求。5.最佳实践包括验证XML有效性、保持简洁、使用CDATA和定期更新。

从XML到可读的内容:揭开RSS feed的神秘面纱从XML到可读的内容:揭开RSS feed的神秘面纱Apr 11, 2025 am 12:03 AM

rssfeedsarexmldocuments usedforcontentAggregation and distribution.totransformthemintoreadableContent:1)parsethethexmlusinglibrarieslibrariesliblarieslikeparserinparserinpython.2)andledifferentifferentrssssssssssssssssssssssssssssssssssssssssssssssersions andpotentionparsingrorS.3)

是否有基于JSON的RSS替代方案?是否有基于JSON的RSS替代方案?Apr 10, 2025 am 09:31 AM

JSONFeed是一种基于JSON的RSS替代方案,其优势在于简洁性和易用性。1)JSONFeed使用JSON格式,易于生成和解析。2)它支持动态生成,适用于现代Web开发。3)使用JSONFeed可以提升内容管理效率和用户体验。

RSS文档工具:构建,验证和发布提要RSS文档工具:构建,验证和发布提要Apr 09, 2025 am 12:10 AM

如何构建、验证和发布RSSfeeds?1.构建:使用Python脚本生成RSSfeed,包含标题、链接、描述和发布日期。2.验证:使用FeedValidator.org或Python脚本检查RSSfeed是否符合RSS2.0标准。3.发布:将RSS文件上传到服务器,或使用Flask动态生成并发布RSSfeed。通过这些步骤,你可以有效管理和分享内容。

确保您的XML/RSS提要:全面的安全清单确保您的XML/RSS提要:全面的安全清单Apr 08, 2025 am 12:06 AM

确保XML/RSSfeeds安全性的方法包括:1.数据验证,2.加密传输,3.访问控制,4.日志和监控。这些措施通过网络安全协议、数据加密算法和访问控制机制来保护数据的完整性和机密性。

XML/RSS面试问题和答案:提高您的专业知识XML/RSS面试问题和答案:提高您的专业知识Apr 07, 2025 am 12:19 AM

XML是一种标记语言,用于存储和传输数据,RSS是一种基于XML的格式,用于发布频繁更新的内容。1)XML通过标签和属性描述数据结构,2)RSS定义特定标签发布和订阅内容,3)使用Python的xml.etree.ElementTree模块可以创建和解析XML,4)XPath表达式可查询XML节点,5)feedparser库可解析RSSfeed,6)常见错误包括标签不匹配和编码问题,可用xmllint验证,7)使用SAX解析器处理大型XML文件可优化性能。

高级XML/RSS教程:ACE您的下一次技术采访高级XML/RSS教程:ACE您的下一次技术采访Apr 06, 2025 am 12:12 AM

XML是一种用于数据存储和交换的标记语言,RSS是基于XML的格式,用于发布更新内容。1.XML定义数据结构,适合数据交换和存储。2.RSS用于内容订阅,解析时使用专门库。3.解析XML可使用DOM或SAX,生成XML和RSS需正确设置元素和属性。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具