一个简单的开源PHP爬虫框架『Phpfetcher』-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

一个简单的开源PHP爬虫框架『Phpfetcher』

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 23, 2016 pm 01:46 PM

这篇文章首发在吹水小镇：http://blog.reetsee.com/archives/366

要在手机或者电脑看到更好的图片或代码欢迎到博文原地址。也欢迎到博文原地址批评指正。

??????????????????????????????

好久不见了！我终于又写一篇日志了，本来有很多流水帐想发但是感觉没营养，就作罢了。今天我主要分享一个简单的PHP爬虫框架，名字叫： Phpfetcher 项目的地址是：https://github.com/fanfank/phpfetcher这个框架的作者是：reetsee.xu，即吹水。把整个项目下载下来后，在Linux下的终端直接执行 demo文件夹下的single_page.php即可看到效果。不过在执行demo文件前，先设置一下你的终端编码为UTF-8以免显示乱码：

export LANG=en_US.UTF-8

????????????????????????????????

0 背景

背景是这样的目前吹水新闻（ http://news.reetsee.com）下的内容全部由Python的爬虫抓取，使用的框架是Python的 Scrapy，而吹水新闻目前是运行在 BAE（百度应用引擎）下的，每个月还需要交钱。目前我的想法是把吹水新闻完全迁移到目前这台阿里云主机上，并且原本的新闻我每天都手动执行一次脚本来抓取再更新到网站，等迁移到这里后就能直接使用Crontab定时脚本自动更新新闻了！最近工作都在用 PHP，开发网站的新页面要PHP，直接读写数据库也能用PHP，那么就直接用PHP重构新闻网站好了。准备开干的时候却发现没找到一个好的PHP爬虫框架（可能是我没仔细找），于是就打算自己写一个，因此就有了这个Phpfetcher。名字起得略好……但是代码写得略搓……不管怎么样，目前基本可以用，而且应该能满足不少简单的需求，下面就是使用示例。

1 基本概念

在Phpfetcher中有四个主要的对象，依次是：Dom，Page，Crawler，Manager。

Dom对象用来解析html，能够访问html里的dom；

Page对象对应到一个具体的html页面，能够取得整个网页的内容，Page对象中有一个Dom对象的成员；

Crawler对象可以理解为就是爬虫对象，用来设置要爬取页面的规则；

Manager对象原本是用来管理Crawler对象的，以后或许能用来在多进程环境下使用，但目前没有实现，所以暂时没有用；

大致概念就是这样了，实际使用主要是操作Crawler对象。在Phpfetcher中，你可以实现自己的Dom，Page和Crawler，只要符合基类的要求即可。要说明的是Phpfetcher的默认Page对象中的Dom对象使用的是 simple_html_dom，没有使用PHP提供的 DOMDocument类，因为我发现DOMDocument对HTML格式的内容兼容性比较差，有时网页中混入其它内容时可能解析不出dom。下面这张是图是Phpfetcher的目录结构：你可以根据自己的需要定制想要的Crawler，Page，Dom类，默认情况下我提供了Crawler的默认类是Phpfetcher_Crawler_Default，Page的默认类是Phpfetcher_Page_Default，Dom的默认类是Phpfetcher_Dom_SimpleHtmlDom。类名和它们所在的路径有对应关系。要注意的是，在使用默认的Page对象时需要PHP的curl库，使用默认的Crawler对象时需要使用PHP的mb_string库，没有的需要装一下。为了便于理解，我画了几张图，第一张是Phpfetcher的三个主要对象之间的关系：图里表示的是Crawler里面有Page的对象，Page里面有Dom的对象。在使用Phpfetcher时，最重要的是完成下图中两个绿色矩形框要求的事情：即你要写一个类继承Phpfetcher提供的Crawler类，然后在你自己的类中实现一个名为handlePage($page)的函数。其中$page参数是一个Phpfetcher的Page类对象。最后这里给出一个基本的流程图：上面说的东西有点虚，那还是直接看实例吧！

2 简单例子

****** 实例1：single_page.php ******例如我们要抓取这个网站的内容： http://news.qq.com/a/20140927/026557.htm里面有很多超链接，有标题，有新闻详细内容，或者其它我们关心的内容。先看一下下面的例子：

<?phprequire_once('phpfetcher.php');class mycrawler extends Phpfetcher_Crawler_Default {    public function handlePage($page) {        //打印处当前页面的title        $res = $page->sel('//title');        for ($i = 0; $i < count($res); ++$i) {            echo $res[$i]->plaintext;            echo "\n";        }    }}$crawler = new mycrawler();$arrJobs = array(    //任务的名字随便起，这里把名字叫qqnews    //the key is the name of a job, here names it qqnews    'qqnews' => array(         'start_page' => 'http://news.qq.com/a/20140927/026557.htm', //起始网页        'link_rules' => array(            /*             * 所有在这里列出的正则规则，只要能匹配到超链接，那么那条爬虫就会爬到那条超链接             * Regex rules are listed here, the crawler will follow any hyperlinks once the regex matches             */        ),        //爬虫从开始页面算起，最多爬取的深度，设置为1表示只爬取起始页面        //Crawler's max following depth, 1 stands for only crawl the start page        'max_depth' => 1,             ) ,   );//$crawler->setFetchJobs($arrJobs)->run(); 这一行的效果和下面两行的效果一样$crawler->setFetchJobs($arrJobs);$crawler->run();

将这个脚本和“phpfetcher.php”以及“Phpfetcher”文件夹放在同一个目录下（或者将“phpfetcher.php”和“Phpfetcher”放到你的PHP环境默认include的查找路径），执行这个脚本，得到的输出如下：

[root@reetsee demo]# php single_page.php 王思聪回应遭警方调查：带弓箭不犯法 我是绿箭侠_新闻_腾讯网

查看一下我们抓取的网页源代码，可以发现是下面这几行中的title标签内容提取出来了：

<!DOCTYPE html><html lang="zh-CN">    <head>        <meta http-equiv="Content-Type" content="text/html; charset=gb2312"></meta>        <meta charset="gb2312"></meta>        <title>            王思聪回应遭警方调查：带弓箭不犯法 我是绿箭侠_新闻_腾讯网        </title>

上面就是一个最简单的例子。 ****** 实例2：multi_page.php ******接下来就是另外一个简单的例子，例如说腾讯新闻的主页，上面有各种新闻，我们这次的目标是把腾讯新闻主页（ http://news.qq.com）显示的部分新闻标题抓下来，直接先上例程：

<?php//下面两行使得这个项目被下载下来后本文件能直接运行$demo_include_path = dirname(__FILE__) . '/../';set_include_path(get_include_path() . PATH_SEPARATOR . $demo_include_path);require_once('phpfetcher.php');class mycrawler extends Phpfetcher_Crawler_Default {    public function handlePage($page) {        //打印处当前页面的第1个h1标题内荣（下标从0开始）        $strFirstH1 = trim($page->sel('//h1', 0)->plaintext);        if (!empty($strFirstH1)) {            echo $page->sel('//h1', 0)->plaintext;            echo "\n";        }    }}$crawler = new mycrawler();$arrJobs = array(    //任务的名字随便起，这里把名字叫qqnews    //the key is the name of a job, here names it qqnews    'qqnews' => array(         'start_page' => 'http://news.qq.com', //起始网页        'link_rules' => array(            /*             * 所有在这里列出的正则规则，只要能匹配到超链接，那么那条爬虫就会爬到那条超链接             * Regex rules are listed here, the crawler will follow any hyperlinks once the regex matches             */            '#news\.qq\.com/a/\d+/\d+\.htm$#',        ),        //爬虫从开始页面算起，最多爬取的深度，设置为2表示爬取深度为1        //Crawler's max following depth, 1 stands for only crawl the start page        'max_depth' => 2,             ) ,   );$crawler->setFetchJobs($arrJobs)->run(); //这一行的效果和下面两行的效果一样//$crawler->setFetchJobs($arrJobs);//$crawler->run();

相比于第1个例子，变化的地方有几个：首先这次我们增加了一条爬虫跟踪的规则“#news\.qq\.com/a/\d+/\d+\.htm$#”（注：PHP使用pcre正则表达式，可以到 PHP关于正则表达式的页面看一下），这是一个正则表达式，例如这种超链接“news.qq.com/a/12345678/00234.htm”那么爬虫就会跟踪；然后是我们把爬虫的最大跟踪深度设置为2,这样爬虫会跟踪1次起始页面上符合要求的超级链接；最后是我把原本的Dom选择从“//title”改为了“//h1”，意思就是抓取h1标签的内容而不是像之前那样抓取title标签，想知道这种Dom选择器的选择规则，需要了解一下 xpath。运行这个文件，能够看到大致效果如下：这样第二个例子就结束了。暂时我就介绍这两个例子吧，Phpfetcher的源代码在这里： https://github.com/fanfank/phpfetcher把代码下载下来后，demo内的东西就可以直接运行了（当然你需要一个有curl和mb_string扩展的php，可以使用“php -m”命令来看一下你的PHP有没有装这两个扩展）。

3 后话

实际上这个phpfetcher目前还有很多问题，性能应该是比较差的，不过毕竟也是我写的第一个框架。另外是关于phpfetcher我有很多东西还没有提到，例如Page对象的一些设置，Crawler对象的设置等，主要是目前太过懒不想写文档，也不知道有没有必要写。我感觉这个框架还是蛮简单的，里面主要的函数我都做了详细的注释，欢迎阅读批评指正给建议！最后就是，如果你想写个爬虫，又想用PHP来写，不妨试一下phpfetcher。 祝大家国庆节快乐~！

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

PHP : 서버 측 스크립팅 언어 소개Apr 16, 2025 am 12:18 AM

PHP는 동적 웹 개발 및 서버 측 응용 프로그램에 사용되는 서버 측 스크립팅 언어입니다. 1.PHP는 편집이 필요하지 않으며 빠른 발전에 적합한 해석 된 언어입니다. 2. PHP 코드는 HTML에 포함되어 웹 페이지를 쉽게 개발할 수 있습니다. 3. PHP는 서버 측 로직을 처리하고 HTML 출력을 생성하며 사용자 상호 작용 및 데이터 처리를 지원합니다. 4. PHP는 데이터베이스와 상호 작용하고 프로세스 양식 제출 및 서버 측 작업을 실행할 수 있습니다.

PHP 및 웹 : 장기적인 영향 탐색Apr 16, 2025 am 12:17 AM

PHP는 지난 수십 년 동안 네트워크를 형성했으며 웹 개발에서 계속 중요한 역할을 할 것입니다. 1) PHP는 1994 년에 시작되었으며 MySQL과의 원활한 통합으로 인해 개발자에게 최초의 선택이되었습니다. 2) 핵심 기능에는 동적 컨텐츠 생성 및 데이터베이스와의 통합이 포함되며 웹 사이트를 실시간으로 업데이트하고 맞춤형 방식으로 표시 할 수 있습니다. 3) PHP의 광범위한 응용 및 생태계는 장기적인 영향을 미쳤지 만 버전 업데이트 및 보안 문제에 직면 해 있습니다. 4) PHP7의 출시와 같은 최근 몇 년간의 성능 향상을 통해 현대 언어와 경쟁 할 수 있습니다. 5) 앞으로 PHP는 컨테이너화 및 마이크로 서비스와 같은 새로운 도전을 다루어야하지만 유연성과 활발한 커뮤니티로 인해 적응력이 있습니다.

PHP를 사용하는 이유는 무엇입니까? 설명 된 장점과 혜택Apr 16, 2025 am 12:16 AM

PHP의 핵심 이점에는 학습 용이성, 강력한 웹 개발 지원, 풍부한 라이브러리 및 프레임 워크, 고성능 및 확장 성, 크로스 플랫폼 호환성 및 비용 효율성이 포함됩니다. 1) 배우고 사용하기 쉽고 초보자에게 적합합니다. 2) 웹 서버와 우수한 통합 및 여러 데이터베이스를 지원합니다. 3) Laravel과 같은 강력한 프레임 워크가 있습니다. 4) 최적화를 통해 고성능을 달성 할 수 있습니다. 5) 여러 운영 체제 지원; 6) 개발 비용을 줄이기위한 오픈 소스.

신화를 폭로 : PHP가 실제로 죽은 언어입니까?Apr 16, 2025 am 12:15 AM

PHP는 죽지 않았습니다. 1) PHP 커뮤니티는 성능 및 보안 문제를 적극적으로 해결하고 PHP7.x는 성능을 향상시킵니다. 2) PHP는 최신 웹 개발에 적합하며 대규모 웹 사이트에서 널리 사용됩니다. 3) PHP는 배우기 쉽고 서버가 잘 수행되지만 유형 시스템은 정적 언어만큼 엄격하지 않습니다. 4) PHP는 컨텐츠 관리 및 전자 상거래 분야에서 여전히 중요하며 생태계는 계속 발전하고 있습니다. 5) Opcache 및 APC를 통해 성능을 최적화하고 OOP 및 설계 패턴을 사용하여 코드 품질을 향상시킵니다.

PHP vs. Python 토론 : 어느 것이 더 낫습니까?Apr 16, 2025 am 12:03 AM

PHP와 Python에는 고유 한 장점과 단점이 있으며 선택은 프로젝트 요구 사항에 따라 다릅니다. 1) PHP는 웹 개발, 배우기 쉽고 풍부한 커뮤니티 리소스에 적합하지만 구문은 현대적이지 않으며 성능과 보안에주의를 기울여야합니다. 2) Python은 간결한 구문과 배우기 쉬운 데이터 과학 및 기계 학습에 적합하지만 실행 속도 및 메모리 관리에는 병목 현상이 있습니다.

PHP의 목적 : 동적 웹 사이트 구축Apr 15, 2025 am 12:18 AM

PHP는 동적 웹 사이트를 구축하는 데 사용되며 해당 핵심 기능에는 다음이 포함됩니다. 1. 데이터베이스와 연결하여 동적 컨텐츠를 생성하고 웹 페이지를 실시간으로 생성합니다. 2. 사용자 상호 작용 및 양식 제출을 처리하고 입력을 확인하고 작업에 응답합니다. 3. 개인화 된 경험을 제공하기 위해 세션 및 사용자 인증을 관리합니다. 4. 성능을 최적화하고 모범 사례를 따라 웹 사이트 효율성 및 보안을 개선하십시오.

PHP : 데이터베이스 및 서버 측 로직 처리Apr 15, 2025 am 12:15 AM

PHP는 MySQLI 및 PDO 확장 기능을 사용하여 데이터베이스 작업 및 서버 측 로직 프로세싱에서 상호 작용하고 세션 관리와 같은 기능을 통해 서버 측로 로직을 처리합니다. 1) MySQLI 또는 PDO를 사용하여 데이터베이스에 연결하고 SQL 쿼리를 실행하십시오. 2) 세션 관리 및 기타 기능을 통해 HTTP 요청 및 사용자 상태를 처리합니다. 3) 트랜잭션을 사용하여 데이터베이스 작업의 원자력을 보장하십시오. 4) SQL 주입 방지, 디버깅을 위해 예외 처리 및 폐쇄 연결을 사용하십시오. 5) 인덱싱 및 캐시를 통해 성능을 최적화하고, 읽을 수있는 코드를 작성하고, 오류 처리를 수행하십시오.

PHP에서 SQL 주입을 어떻게 방지합니까? (준비된 진술, pdo)Apr 15, 2025 am 12:15 AM

PHP에서 전처리 문과 PDO를 사용하면 SQL 주입 공격을 효과적으로 방지 할 수 있습니다. 1) PDO를 사용하여 데이터베이스에 연결하고 오류 모드를 설정하십시오. 2) 준비 방법을 통해 전처리 명세서를 작성하고 자리 표시자를 사용하여 데이터를 전달하고 방법을 실행하십시오. 3) 쿼리 결과를 처리하고 코드의 보안 및 성능을 보장합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는