phpspider는 훌륭한 PHP로 개발된 스파이더 크롤러입니다.
PHP 웹 크롤러를 작성하려면 다음 기술이 필요합니다.
크롤러는 PHP로 작성됩니다(권장 학습: PHP 비디오 튜토리얼)
From 웹페이지에서 데이터를 추출하려면 XPath(XPath Selector Tutorial)를 사용해야 합니다
물론 CSS Selector(CSS Selector Tutorial)도 사용할 수 있습니다
정규식(Regular Expression Tutorial)을 많이 사용합니다
개발 Chrome 이 도구는 인공물이므로 많은 AJAX 요청을 이를 사용하여 분석해야 합니다
참고:이 프레임워크는 명령줄, 명령줄, 명령줄, 명령줄에서만 실행할 수 있으며 중요한 사항은 세 번 말해야 합니다^ _^
이 글에 작성된 데모는 군사교육 웹사이트를 크롤링하는 것입니다
<?php require_once __DIR__ . '/../autoloader.php'; use phpspider\core\phpspider; /* Do NOT delete this comment */ /* 不要删除这段注释 */ $configs = array( 'name' => '军事', // 给你的爬虫起一个名字 'log_show' => false, // 是否显示日志 'tasknum' => 1, // 开启多少个进程爬取 // 数据库配置 'db_config' => array( 'host' => '127.0.0.1', 'port' => 3306, 'user' => 'root', 'pass' => 'root', 'name' => 'collection', ), // 数据库表,表需要已存在,collection库,test表 'export' => array( 'type' => 'db', 'table' => 'test', ), // 爬取的域名列表 'domains' => array( 'war.163.com' ), // 抓取的起点 'scan_urls' => array( 'http://war.163.com' ), // 列表页实例,你要爬取的列表,也就是分页 'list_url_regexes' => array( "http://war.163.com" ), // 内容页实例,文章的内容页 // \d+ 指的是变量,就是可变的参数 'content_url_regexes' => array( "http://war.163.com/photoview/4T8E0001/\d+", ), // 失败重新爬取次数 'max_try' => 5, // 爬取规则配置 'fields' => array( array( 'name' => "title", // 数据库字段名 'selector' => "//div[@class='headline']/h1", // 规则,表示:headline类里的h1标签 'required' => true, // 如果为空,整条数据丢弃 ), array( 'name' => "content", 'selector' => "//div[@class='overview']/p", 'required' => true, ), array( 'name' => "img", 'selector' => "//img[@class='firstPreload']", 'required' => true, ), ), ); $spider = new phpspider($configs); $spider->start();
위 내용은 PHP를 크롤러로 사용할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!