Rumah >pembangunan bahagian belakang >tutorial php >一个采集得到信息不全的有关问题

一个采集得到信息不全的有关问题

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBasal: 2016-06-13 10:17:52923semak imbas

求助一个采集得到信息不全的问题
我要采集这个网站
http://www.tvmao.com/drama/MGxYWA==/episode/0

刚开始的时候，得到的信息是全的，

当采集到一定时候的时候，采集得到的信息只有半了，少了一些文字。

（我然后拿到其它地方用IE打开看的时候，发现先加载了一半文字，过一小会，在加载一半的文字）
（用本地浏览器打开，只有一半的文字）
还请问一下，怎么处理一下。才能获取全部信息。

------解决方案--------------------
有可能这个网站作了防采集处理，同一IP如果访问过频，针对此IP就启动防采集了，这也符合你说的刚开始可以完整采集，时间一长就不行的情况。不过这个还好了，有的网站变态到每次1K字节的间隔输出呢
------解决方案--------------------

探讨

这样啊，我该怎么做一下，才能不被防采集呢？
引用:

有可能这个网站作了防采集处理，同一IP如果访问过频，针对此IP就启动防采集了，这也符合你说的刚开始可以完整采集，时间一长就不行的情况。不过这个还好了，有的网站变态到每次1K字节的间隔输出呢

------解决方案--------------------
防止采集：
1：用户登录才能访问网站内容
2：利用脚本语言做分页(隐藏分页)
3：防盗链办法(只许可通过本站页面连接查看,如:Request.ServerVariables(“HTTP_REFERER“) )
4：全flash、图片或者pdf来浮现网站内容
5：网站随机接纳不同模版
6：接纳动态不规则的html标签
一旦要同时搜索引擎爬虫和采集器,这是很让人无奈的工作,因为搜索引擎第一步就是采集目标网页内容,这跟采集器原理同样,所以很多防止采集的方法同时也阻碍了搜索引擎对网站的收录,无奈,是吧?以上10条建议虽然不能百分之百防采集,可是几种方法一起适用已经拒绝了一大部分采集器了。

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：PHP调用数据库数据输出结果总重复一次Artikel seterusnya：对象元素名中含变量怎么处理

Artikel berkaitan

Lihat lagi