ホームページ  >  記事  >  バックエンド開発  >  php有什么爬虫框架?

php有什么爬虫框架?

PHPz
PHPzオリジナル
2016-06-13 12:11:225911ブラウズ

php爬虫框架有:1、phpspider,一个爬虫开发框架;2、Beanbun,用PHP编写的多进程网络爬虫框架;3、PHPCrawl,一个PHP开源的Web检索蜘蛛类库。

php有什么爬虫框架?

PHP主流爬虫框架

phpspider

地址:https://github.com/owner888/phpspider

phpspider是一个爬虫开发框架。使用本框架,你不用了解爬虫的底层技术实现,爬虫被网站屏蔽、有些网站需要登录或验证码识别才能爬取等问题。简单几行PHP代码,就可以创建自己的爬虫,利用框架封装的多进程Worker类库,代码更简洁,执行效率更高速度更快。

Beanbun

地址:http://www.beanbun.org/#/

Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性。

支持守护进程与普通两种模式(守护进程模式只支持 Linux 服务器)

默认使用 Guzzle 进行爬取

支持分布式

支持内存、Redis 等多种队列方式

支持自定义URI过滤

支持广度优先和深度优先两种爬取方式

遵循 PSR-4 标准

爬取网页分为多步,每步均支持自定义动作(如添加代理、修改 user-agent 等)

灵活的扩展机制,可方便的为框架制作插件:自定义队列、自定义爬取方式…

PHPCrawl

地址:http://phpcrawl.cuab.de/

PHPCrawl是一个PHP开源的Web检索蜘蛛(爬虫)类库。PHPCrawl抓取工具“ Spider ”的网站,并提供一切有关网页,链接,文件等信息。

PHPCrawl povides可以选择性的指定的爬虫的行为,比如喜欢网址、内容类型,过滤器、 cookie的处理等方式。

更多相关知识,请访问 PHP中文网!!

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。