博客列表 >自己对爬虫的理解

自己对爬虫的理解

Nick的博客
Nick的博客原创
2019年06月24日 22:53:311531浏览

第一次接触爬虫后,自己对爬虫的理解;


爬虫:就是抓取网页数据,模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。原则上只要是浏览器或者客户端能做的,爬虫都能做。


利用网页三大特征进行爬虫:

第一:URL进行定位(锁定爬虫的目标);

第二:网页的源码(HTML+CSS+JavaScript);

第三:网页的传输协议(HTTP或HTTPS).


确定好爬虫目标就可以开始使用PHP中file();file_get_contents();curl()等函数方法进行爬虫的设定。


其中curl_setopt()函数方法可以对爬虫的数据获取进行设置,从而获取所需的数据(设置也是数据的筛选),此函数方法还可以进行模拟浏览器对服务器发出的post请求,因此获得Header区域内容。


声明:本文内容转载自脚本之家,由网友自发贡献,版权归原作者所有,如您发现涉嫌抄袭侵权,请联系admin@php.cn 核实处理。
全部评论
文明上网理性发言,请遵守新闻评论服务协议