Maison >développement back-end >tutoriel php >连续的分页采集问题

连续的分页采集问题

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBoriginal: 2016-06-06 20:38:281491parcourir

目标站点：http://news.xinhuanet.com/photo/2015-01/29/c_127433852.htm
获取内容：正文图片和文字说明；
本人实现方法：
因为分页地址是连续的，我是在目标地址上做循环

http://news.xinhuanet.com/photo/2015-01/29/c_127433852_2.htm

用get_headers访问后获取返回是否为200，是的话进行内容抓取
1、curl获取当前地址html后，截取所需内容
2、_2这个就是变量，自增后继续判断下一页是否可以访问，可以访问就继续采集

以上是可以实现采集抓取的，但是好像速度很慢，而且每次都是curl去抓取对服务器貌似也有压力

问题：如何改进，大家是如何用php做的抓取，求思路和方向

回复内容：

http://news.xinhuanet.com/photo/2015-01/29/c_127433852_2.htm

以上是可以实现采集抓取的，但是好像速度很慢，而且每次都是curl去抓取对服务器貌似也有压力

问题：如何改进，大家是如何用php做的抓取，求思路和方向

下面不是有分页么，直接获取<div id="div_currpage"></div>里面的链接存到数组抓吧

直接抓取，抓取返回结果的时候就先判断状态码是否为200
Curl并发

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：微信小程序出现“invalid code”怎么办Article suivant：百度编辑器Ueditor如何初始化内容

Articles Liés

Voir plus