来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。 一、Ganon 项目
来源:http://www.ido321.com/1158.html
抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。
一、Ganon
项目地址: http://code.google.com/p/ganon/
文档: http://code.google.com/p/ganon/w/list
测试:抓取我的网站首页所有class属性值是focus的div元素,并且输出class值
<span><?php <span>include</span> <span>'ganon.php'</span>; $html = file_get_dom(<span>'http://www.ido321.com/'</span>); <span>foreach</span>($html(<span>'div[class="focus"]'</span>) <span>as</span> $element) { <span>echo</span> $element-><span>class</span>, <span>"<br>\n"</span>; } ?>
结果:
二、phpQuery
项目地址:http://code.google.com/p/phpquery/
文档:https://code.google.com/p/phpquery/wiki/Manual
<span><?php <span>include</span> <span>'phpQuery/phpQuery.php'</span>; phpQuery::newDocumentFile(<span>'http://www.ido321.com/'</span>); $artlist = pq(<span>"article"</span>); <span>foreach</span>($artlist <span>as</span> $title){ <span>echo</span> pq($title)->find(<span>'h2'</span>)->html().<span>"<br>"</span>; } ?>
结果:

三、Simple-Html-Dom
项目地址:
http://simplehtmldom.sourceforge.net/
文档:
http://simplehtmldom.sourceforge.net/manual.htm
测试:抓取我网站首页的所有链接
<span><?php <span>include</span> <span>'simple_html_dom.php'</span>; <span>//使用url和file都可以创建DOM</span> $html = file_get_html(<span>'http://www.ido321.com/'</span>); <span>//找到所有图片</span> <span>// foreach($html->find('img') as $element)</span> <span>// echo $element->src . '<br>';</span> <span>//找到所有链接</span> <span>foreach</span>($html->find(<span>'a'</span>) <span>as</span> $element) <span>echo</span> $element->href . <span>'<br>'</span>; ?>
结果:(截图是一部分)

四、Snoopy
项目地址:http://code.google.com/p/phpquery/
文档:http://code.google.com/p/phpquery/wiki/Manual
测试:抓取我的网站首页
<span><?php <span>include</span>(<span>"Snoopy.class.php"</span>); $url = <span>"http://www.ido321.com"</span>; $snoopy = <span>new</span> Snoopy; $snoopy->fetch($url); <span>//获取所有内容</span> <span>echo</span> $snoopy->results; <span>//显示结果</span> <span>// echo $snoopy->fetchtext ;//获取文本内容(去掉html代码)</span> <span>// echo $snoopy->fetchlinks($url) ;//获取链接</span> <span>// $snoopy->fetchform ;//获取表单 </span> ?>
结果:

五、手动编写爬虫
如果编写能力ok,可以手写一个网页爬虫,实现网页抓取。网上有千篇一律的介绍此方法的文章,LZ就不赘述了。有兴趣了解的,可以百度 php 网页抓取。
ps:资源分享
常见的开源爬虫项目请戳:http://blog.chinaunix.net/uid-22414998-id-3774291.html
国民岳父的“屁民理论”

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

WebStorm Mac版
好用的JavaScript開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

禪工作室 13.0.1
強大的PHP整合開發環境