近经常需要采集一些网上的数据,发现一个PHP处理HTML的利器 simple html dom,看了一下文档,使用非常方便,关键是能够用CSS选择器来访问DOM树,和jquery相似,实在是难得的利器.
入门级
simple_html_dom插件
用dom处理html文件的利器
使用:加载simple_html_dom.php文件
require_once 'simple_html_dom.php' new simple_html_dom对象 $dom = new simple_html_dom()
加载html:
$dom->load($html); find()方法 $dom->find('div.lookLeftname', 0)->plaintext class='lookLeftname'的div中的纯文本 $dom->find('div.lookLeftname', 0)->innertext class='lookLeftname'的div中的内部文本
完整测试实例,代码如下:
<?php require_once ("simple_html_dom.php"); ini_set('memory_limit', '1000M'); ini_set("max_execution_time", 6000000); for ($i = 1; $i <= 21; $i++) { $html = file_get_html(http: //www.111cn.net); $as = $html->find('.shopname a'); $sum = 0; foreach ($as as $a) { if ($a->plaintext != "分店") { $a->href = "http://www.xx.com" . $a->href; echo $a->outertext . "------" . $a->href . "-------<br>"; $sum++; } } echo "<br><br>第 {$i} 页结束 ,数目:{$sum}<hr>"; } ?>