>백엔드 개발 >PHP 문제 >PHP 크롤러를 실행하는 방법

PHP 크롤러를 실행하는 방법

(*-*)浩
(*-*)浩원래의
2019-10-19 10:16:273258검색

크롤러를 만들 때 누구나 가장 먼저 생각할 수 있는 것은 Python입니다. 실제로 PHP를 사용하여 크롤러 프로그램을 작성할 수도 있습니다. PHP는 항상 간단하고 사용하기 쉬웠습니다. 개인적으로 PHPspider 프레임워크를 사용하여 간단한 크롤러를 작성할 수 있는지 테스트했습니다.

PHP 크롤러를 실행하는 방법

매칭 방법은 XPach 구문을 사용합니다. (추천 학습: PHP 비디오 튜토리얼)

<?php
require &#39;/vendor/autoload.php&#39;;
use phpspider\core\phpspider;

/* Do NOT delete this comment */
/* 不要删除这段注释 */

$configs = array(
&#39;name&#39; => &#39;简书&#39;,
&#39;log_show&#39; =>false,
&#39;tasknum&#39; => 1,
//数据库配置
&#39;db_config&#39; => array(
&#39;host&#39;  => &#39;127.0.0.1&#39;,
&#39;port&#39;  => 3306,
&#39;user&#39;  => &#39;root&#39;,
&#39;pass&#39;  => &#39;&#39;,
&#39;name&#39;  => &#39;demo&#39;,
),
&#39;export&#39; => array(
&#39;type&#39; => &#39;db&#39;,
&#39;table&#39; => &#39;jianshu&#39;,  // 如果数据表没有数据新增请检查表结构和字段名是否匹配
),
//爬取的域名列表  
&#39;domains&#39; => array(
    &#39;jianshu&#39;,
    &#39;www.jianshu.com&#39;
), 
//抓取的起点
&#39;scan_urls&#39; => array(
    &#39;https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop&#39;
),
//列表页实例
&#39;list_url_regexes&#39; => array(
    "https://www.jianshu.com/c/\d+"
),
//内容页实例
//  \d+  指的是变量
&#39;content_url_regexes&#39; => array(
    "https://www.jianshu.com/p/\d+",
),
&#39;max_try&#39; => 5,

&#39;fields&#39; => array(
    array(
        &#39;name&#39; => "title",
        &#39;selector&#39; => "//h1[@class=&#39;title&#39;]",
        &#39;required&#39; => true,
    ),
    array(
        &#39;name&#39; => "content",
        &#39;selector&#39; => "//div[@class=&#39;show-content-free&#39;]",
        &#39;required&#39; => true,
    ),
),
);

$spider = new phpspider($configs);
$spider->start();

코드를 완성한 후에는 캡처할 내용에 따라 해당 데이터베이스와 데이터 테이블을 생성해야 하며 필드를 정렬해야 합니다.

그런 다음 cmd에

php -f d:\jianshu\spider.php

를 입력하고 다음과 같이 실행하세요

PHP 크롤러를 실행하는 방법

위 내용은 PHP 크롤러를 실행하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.