博客列表 >自己对爬虫的理解

自己对爬虫的理解

第一次接触爬虫后，自己对爬虫的理解;

爬虫：就是抓取网页数据，模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上只要是浏览器或者客户端能做的，爬虫都能做。

利用网页三大特征进行爬虫：

第一：URL进行定位（锁定爬虫的目标）；

第二：网页的源码（HTML+CSS+JavaScript）;

第三：网页的传输协议（HTTP或HTTPS）.

确定好爬虫目标就可以开始使用PHP中file();file_get_contents();curl()等函数方法进行爬虫的设定。

其中curl_setopt()函数方法可以对爬虫的数据获取进行设置，从而获取所需的数据（设置也是数据的筛选），此函数方法还可以进行模拟浏览器对服务器发出的post请求，因此获得Header区域内容。

声明：本文内容转载自脚本之家，由网友自发贡献，版权归原作者所有，如您发现涉嫌抄袭侵权，请联系admin@php.cn 核实处理。

全部评论

文明上网理性发言，请遵守新闻评论服务协议

查看更多

相关文章