Rumah >hujung hadapan web >html tutorial >详解一个完美的HTML解析引擎(Jumony)
也许很多人会认为,目前的HTML解析器已经足够了,甚至于简单的正则,也已经可以满足操纵HTML文档的需求。是的,对于互联网上绝大多数的 HTML文档,事实上都大部分满足了XHTML的规范,对于它们的解析,并不需要多么强大的解析器。但是强大的解析器是一回事,而完美的解析器又是另一回事。
Jumony Core首先提供了一个近乎完美的HTML解析引擎,其解析结果无限逼近浏览器的解析结果。不论是无结束标签的元素,可选结束标签的元素,或是标记属性,或是CSS选择器和样式,一切合法的,不合法的HTML文档,浏览器解析成啥样,Jumony就解析成啥样。也就是说,Jumony解析的结果,与浏览器解析的结果别无二致,让你可以再也不用关心HTML文档是否可以被识别,浏览器能看,Jumony就能解。
完美和强大只有一步之遥,但是完美的解析器可以让你永远不用关心HTML源文档。
以下是Jumony解析器所支持的特性不完全列表
不仅仅是可以从文本中解析HTML,Jumony的API可以从互联网上直接抓取文档分析,并根据HTTP头自动识别编码:
new JumonyParser().LoadDocument( "www.php.cn/" ).Find( ".post_item a.titlelnk" )
而目前仅次于Jumony的HTML解析开源项目HtmlAgilityPack早已停止了更新 ,这么多年过去了,对于最基本的ff9c23ada1bcecdd1a0fb5d5a0f18437元素的解析都还存在问题。
仅仅只是完美解析HTML,并不能带来多少好处,上面已经说过,事实上大部分的HTML文档,都可以用二流的解析器甚至是简单的正则表达式加以分析,那么为什么我们需要Jumony呢?
答案是一个HTML引擎不仅仅是解析DOM结构这么简单。
考虑这样的场景:我需要给一个元素的display样式设置一个none值。在浏览器中,我们只需要简单的 element.style.display = "none"便可以满足我们的要求。现在,通过解析器已经得到了我们所需要的DOM,但设置样式还需要进行字符串的拼接么?
不需要,Jumony支持CSS样式解析,甚至部分CSS样式缩写规则也能识别,在Jumony中,给元素设置一个样式和在浏览器中一样简单:
element.Style( "display", "none" )
我们再来看这样的例子:1cddcc04a95ff5245e0026bd6b6a421694b3e26ee717c64999d7867364b1b4a3,如果我们对这个元素设置padding-left: 0px会怎样?
在Jumony中,结果会是:
<p style="padding-left: 0px; padding-right: 5px; padding-top:5px; padding-bottom: 5px"></p>
看,padding属性被神奇的自动展开了。
CSS选择器是HTML世界通行的查询语言,其简洁有力且被众多浏览器支持。Jumony也支持几乎完整的CSS3选择器(除去运行时伪类及伪对象)。借助选择器,我们可以轻松的在HTML中找到我们感兴趣的对象。例如抓取博客园首页所有文章标题:
new JumonyParser().LoadDocument( "www.php.cn/" ).Find( ".post_item a.titlelnk" )
抓取,分析,选择,一气呵成,只需要简单的代码,我们就能在控制台输出我们抓取到的数据:
foreach( var title = new JumonyParser().LoadDocument( "www.php.cn/" ).Find( ".post_item a.titlelnk" ) ) Console.WriteLine( title.InnerText() );
Jumony支持的CSS3选择器列表:
选择器 | 描述 |
* | 选择所有元素 |
p a | 选择子代元素 |
p>a | 选择子级元素 |
p+a | 选择相邻元素 |
p~a | 选择后继元素 |
[attr] | 属性存在选择 |
[attr=value] | 属性值精确匹配 |
[attr~=value] | 属性值近似匹配 |
[attr^=value] | 属性值开头匹配 |
[attr*=value] | 属性值包含匹配 |
[attr$=value] | 属性值结尾匹配 |
[attr!=value] | 属性值否定匹配 |
:not | 否定伪类 |
:only-child | 唯一子元素伪类 |
:only-of-type | 唯一类型伪类 |
:empty | 空元素伪类 |
:nth-child | 结构化伪类 |
:nth-last-child | 结构化伪类 |
:nth-of-type | 结构化伪类 |
:nth-last-of-type | 结构化伪类 |
:first-child | 结构化伪类 |
:last-child | 结构化伪类 |
:first-of-type | 结构化伪类 |
:last-of-type | 结构化伪类 |
在Jumony Core 3,为用户提供了最大的可扩展性,你可以自定义HTML规范,实现自己的解析器,将其他DOM模型嫁接到Jumony API上,发明自己的CSS选择器伪类,甚至于自己换一套API,例如jQuery风格的。
Jumony Core拥有许多的衍生项目,例如爬取网站,提供jQuery风格的 API、进行网站开发、制作MHT文件、为HAP的解析结果增加CSS选择器支持等等,这些项目都得益于Jumony Core强大的可扩展性,从而发挥出强大的功能。
【相关推荐】
2. html开发手册
Atas ialah kandungan terperinci 详解一个完美的HTML解析引擎(Jumony). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!