phP的抓取网站类库
<?php header("Content-Type: text/html; charset=UTF-8"); require("phpQuery.php"); $hj = QueryList::Query('http://mobile.csdn.net/',array("title"=>array('.unit h1','text'))); //dump($hj->data); $data = QueryList::Query('http://cms.querylist.cc/bizhi/453.html',array( 'image' => array('img','src') ))->data; // $data = QueryList::Query('http://cms.querylist.cc/google/list_1.html',array( 'link' => array('a','href') ))->data; $page = 'http://cms.querylist.cc/news/566.html'; $reg = array( 'title' => array('h1','text'), 'date' => array('.pt_info','text','-span -a',function($content){ $arr = explode(' ',$content); return $arr[0]; }), 'content' => array('.post_content','html','a -.content_copyright -script',function($content){ $doc = phpQuery::newDocumentHTML($content); $imgs = pq($doc)->find('img'); foreach ($imgs as $img) { $src = 'http://cms.querylist.cc'.pq($img)->attr('src'); $localSrc = 'w/'.md5($src).'.jpg'; $stream = file_get_contents($src); file_put_contents($localSrc,$stream); pq($img)->attr('src',$localSrc); } return $doc->htmlOuter(); }) ); $rang = '.content'; $ql = QueryList::Query($page,$reg,$rang); $data = $ql->getData(); dump($data);
支持抓取网站,进行爬虫,非常强大,是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容,比如获取某新闻网站的头条信息。更有意思的是,它采用了jQuery的思想,你可以像使用jQuery一样处理页面内容,获取你想要的页面信息。
免责声明
本站所有资源均由网友贡献或各大下载网站转载。请自行检查软件的完整性!本站所有资源仅供学习参考。请不要将它们用于商业目的。否则,一切后果由您负责!如有侵权,请联系我们删除。联系方式:admin@php.cn
相关文章

24May2019
查看网站被百度抓取的情况的方法:通过分析网站日志中百度蜘蛛的活跃性、抓取频率、返回的HTTP状态码等来实现。还可以查看网站根目录下的日志文件,该文件记录了网站被访问和操作的情况。

17Nov2024
如何在 PHP 中实现 Web Scraper Web 抓取涉及三个步骤:向 URL 发送 GET 或 POST 请求。接收 HTML 响应。解析...


热工具

热门文章
两个点博物馆:邦格荒地地点指南
28Feb2025手游攻略
击败分裂小说需要多长时间?
07Mar2025手游攻略
在哪里可以在怪物猎人荒野中找到地球晶体
27Feb2025手游攻略
仓库:如何复兴队友
04Mar2025手游攻略
两个点博物馆:所有展览以及在哪里可以找到它们
05Mar2025手游攻略