Heim  >  Artikel  >  Backend-Entwicklung  >  So führen Sie den PHP-Crawler aus

So führen Sie den PHP-Crawler aus

(*-*)浩
(*-*)浩Original
2019-10-19 10:16:273162Durchsuche

Wenn es darum geht, einen Crawler zu erstellen, denkt jeder vielleicht zuerst an Python. Tatsächlich kann PHP auch zum Schreiben von Crawler-Programmen verwendet werden. PHP war schon immer einfach und benutzerfreundlich. Ich habe persönlich getestet, dass ich mit dem PHPspider-Framework einen einfachen Crawler schreiben kann.

So führen Sie den PHP-Crawler aus

Die Matching-Methode verwendet XPach-Syntax. (Empfohlenes Lernen: PHP-Video-Tutorial)

<?php
require &#39;/vendor/autoload.php&#39;;
use phpspider\core\phpspider;

/* Do NOT delete this comment */
/* 不要删除这段注释 */

$configs = array(
&#39;name&#39; => &#39;简书&#39;,
&#39;log_show&#39; =>false,
&#39;tasknum&#39; => 1,
//数据库配置
&#39;db_config&#39; => array(
&#39;host&#39;  => &#39;127.0.0.1&#39;,
&#39;port&#39;  => 3306,
&#39;user&#39;  => &#39;root&#39;,
&#39;pass&#39;  => &#39;&#39;,
&#39;name&#39;  => &#39;demo&#39;,
),
&#39;export&#39; => array(
&#39;type&#39; => &#39;db&#39;,
&#39;table&#39; => &#39;jianshu&#39;,  // 如果数据表没有数据新增请检查表结构和字段名是否匹配
),
//爬取的域名列表  
&#39;domains&#39; => array(
    &#39;jianshu&#39;,
    &#39;www.jianshu.com&#39;
), 
//抓取的起点
&#39;scan_urls&#39; => array(
    &#39;https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop&#39;
),
//列表页实例
&#39;list_url_regexes&#39; => array(
    "https://www.jianshu.com/c/\d+"
),
//内容页实例
//  \d+  指的是变量
&#39;content_url_regexes&#39; => array(
    "https://www.jianshu.com/p/\d+",
),
&#39;max_try&#39; => 5,

&#39;fields&#39; => array(
    array(
        &#39;name&#39; => "title",
        &#39;selector&#39; => "//h1[@class=&#39;title&#39;]",
        &#39;required&#39; => true,
    ),
    array(
        &#39;name&#39; => "content",
        &#39;selector&#39; => "//div[@class=&#39;show-content-free&#39;]",
        &#39;required&#39; => true,
    ),
),
);

$spider = new phpspider($configs);
$spider->start();

Denken Sie nach Abschluss des Codes daran, die entsprechende Datenbank und Datentabelle entsprechend dem zu erfassenden Inhalt und den Feldern zu erstellen ausgerichtet sein.

Geben Sie dann cmd ein, geben Sie

php -f d:\jianshu\spider.php

ein und führen Sie Folgendes aus:

So führen Sie den PHP-Crawler aus

Das obige ist der detaillierte Inhalt vonSo führen Sie den PHP-Crawler aus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn