首页 >web前端 >html教程 >详解一个完美的HTML解析引擎（Jumony）

详解一个完美的HTML解析引擎（Jumony）

零下一度原创: 2017-05-04 14:57:377450浏览

也许很多人会认为，目前的HTML解析器已经足够了，甚至于简单的正则，也已经可以满足操纵HTML文档的需求。是的，对于互联网上绝大多数的 HTML文档，事实上都大部分满足了XHTML的规范，对于它们的解析，并不需要多么强大的解析器。但是强大的解析器是一回事，而完美的解析器又是另一回事。

Jumony Core首先提供了一个近乎完美的HTML解析引擎，其解析结果无限逼近浏览器的解析结果。不论是无结束标签的元素，可选结束标签的元素，或是标记属性，或是CSS选择器和样式，一切合法的，不合法的HTML文档，浏览器解析成啥样，Jumony就解析成啥样。也就是说，Jumony解析的结果，与浏览器解析的结果别无二致，让你可以再也不用关心HTML文档是否可以被识别，浏览器能看，Jumony就能解。

完美和强大只有一步之遥，但是完美的解析器可以让你永远不用关心HTML源文档。

以下是Jumony解析器所支持的特性不完全列表

特性	例子
孤立的7f19db43d97d2d4008bb10f655c09c49解析为文本	3499910bf9dac5ae3c52d5ede7383485>5db79b134e9f6b82c0b36e0489ee08ed应当解析为3499910bf9dac5ae3c52d5ede7383485>5db79b134e9f6b82c0b36e0489ee08ed
标记属性（没有值的属性）	f396c7ee6581b8a2c1feb962c201109c
元素丢失结束标签	e388a4556c0f65e1904146cc1a846bee43091600189d2e5d073500b021ca54e8测试链接94b3e26ee717c64999d7867364b1b4a3
可选结束标签元素 "body", "colgroup", "dd", "dt", "head", "html", "li", "option", "p", "tbody", "td", "tfoot", "th", "thead", "tr"	e388a4556c0f65e1904146cc1a846beeabce388a4556c0f65e1904146cc1a846bee123
无结束标签元素 "area", "base", "basefont", "br", "col", "frame", "hr", "img", "input", "isindex", "link", "meta", "param", "wbr", "bgsound", "spacer", "keygen"	b1cdfffa6e56671b34e4ca66375f6875
CData元素	3f1c4e4b6b16bbbd69b2ee476dc4f83aif ( 1
"script", "style", "textarea", "title"
预格式化元素	e03b848252eb9375d56be284e690e873 前面有空格bc5574f69a0cba105bc93bd3dc13c4ec
属性值使用单引号	0d044268aab52141557b653cfd69702c
属性值使用双引号	86751dbe4262c333147664c6a50fd2a8
属性值丢失（但有等号）	2de933bd81cf0e954926b4b4a48640c3
属性值前面有空格	3530e3885d25c019db1e1e8407343637
解析HTML声明	8b05045a5be5764f313ed5b9168a17e6

不仅仅是可以从文本中解析HTML，Jumony的API可以从互联网上直接抓取文档分析，并根据HTTP头自动识别编码：

new JumonyParser().LoadDocument( "www.php.cn/" ).Find( ".post_item a.titlelnk" )

而目前仅次于Jumony的HTML解析开源项目HtmlAgilityPack早已停止了更新，这么多年过去了，对于最基本的ff9c23ada1bcecdd1a0fb5d5a0f18437元素的解析都还存在问题。

二、CSS样式设置支持

仅仅只是完美解析HTML，并不能带来多少好处，上面已经说过，事实上大部分的HTML文档，都可以用二流的解析器甚至是简单的正则表达式加以分析，那么为什么我们需要Jumony呢？

答案是一个HTML引擎不仅仅是解析DOM结构这么简单。

考虑这样的场景：我需要给一个元素的display样式设置一个none值。在浏览器中，我们只需要简单的 element.style.display = "none"便可以满足我们的要求。现在，通过解析器已经得到了我们所需要的DOM，但设置样式还需要进行字符串的拼接么？

不需要，Jumony支持CSS样式解析，甚至部分CSS样式缩写规则也能识别，在Jumony中，给元素设置一个样式和在浏览器中一样简单：

element.Style( "display", "none" )

我们再来看这样的例子：1cddcc04a95ff5245e0026bd6b6a421694b3e26ee717c64999d7867364b1b4a3，如果我们对这个元素设置padding-left: 0px会怎样？

在Jumony中，结果会是：

<p style="padding-left: 0px; padding-right: 5px; padding-top:5px; padding-bottom: 5px"></p>

看，padding属性被神奇的自动展开了。

三、CSS 3选择器支持

CSS选择器是HTML世界通行的查询语言，其简洁有力且被众多浏览器支持。Jumony也支持几乎完整的CSS3选择器（除去运行时伪类及伪对象）。借助选择器，我们可以轻松的在HTML中找到我们感兴趣的对象。例如抓取博客园首页所有文章标题：

new JumonyParser().LoadDocument( "www.php.cn/" ).Find( ".post_item a.titlelnk" )

抓取，分析，选择，一气呵成，只需要简单的代码，我们就能在控制台输出我们抓取到的数据：

 foreach( var title = new JumonyParser().LoadDocument( "www.php.cn/" ).Find( ".post_item a.titlelnk" ) )
  Console.WriteLine( title.InnerText() );

Jumony支持的CSS3选择器列表：

选择器	描述
*	选择所有元素
p a	选择子代元素
p>a	选择子级元素
p+a	选择相邻元素
p~a	选择后继元素
[attr]	属性存在选择
[attr=value]	属性值精确匹配
[attr~=value]	属性值近似匹配
[attr^=value]	属性值开头匹配
[attr*=value]	属性值包含匹配
[attr$=value]	属性值结尾匹配
[attr!=value]	属性值否定匹配
:not	否定伪类
:only-child	唯一子元素伪类
:only-of-type	唯一类型伪类
:empty	空元素伪类
:nth-child	结构化伪类
:nth-last-child	结构化伪类
:nth-of-type	结构化伪类
:nth-last-of-type	结构化伪类
:first-child	结构化伪类
:last-child	结构化伪类
:first-of-type	结构化伪类
:last-of-type	结构化伪类

四、强大的可扩展性

在Jumony Core 3，为用户提供了最大的可扩展性，你可以自定义HTML规范，实现自己的解析器，将其他DOM模型嫁接到Jumony API上，发明自己的CSS选择器伪类，甚至于自己换一套API，例如jQuery风格的。

Jumony Core拥有许多的衍生项目，例如爬取网站，提供jQuery风格的 API、进行网站开发、制作MHT文件、为HAP的解析结果增加CSS选择器支持等等，这些项目都得益于Jumony Core强大的可扩展性，从而发挥出强大的功能。

【相关推荐】

1. 免费html在线视频教程

2. html开发手册

3. php.cn原创html5视频教程

以上是详解一个完美的HTML解析引擎（Jumony）的详细内容。更多信息请关注PHP中文网其他相关文章！

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：对HTML 提取器(woody)的介绍下一篇：一款好用的HTML编辑器（UEditor）使用教程

查看更多