Heim  >  Artikel  >  Backend-Entwicklung  >  So installieren Sie das PHP-Crawler-Framework

So installieren Sie das PHP-Crawler-Framework

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼Original
2019-09-29 17:09:092472Durchsuche

So installieren Sie das PHP-Crawler-Framework

Wenn es um die Erstellung von Crawlern geht, denkt jeder vielleicht zuerst an Python. Tatsächlich kann PHP auch zum Schreiben von Crawler-Programmen verwendet werden. PHP war schon immer einfach und benutzerfreundlich. Ich habe persönlich getestet, dass ich mit dem PHPspider-Framework ein einfaches Crawler-Programm in 10 Minuten schreiben kann.

1. PHP-Umgebungsinstallation

Wie Python benötigt auch PHP eine Umgebung, die von der offiziellen Website heruntergeladen wurde, oder Sie können XAMPP, PHPstudy und verwenden andere integrierte Umgebungen PHP. Es wird eine integrierte Umgebung empfohlen, sodass die MySQL-Datenbank nicht separat installiert werden muss.

2. Composer-Installation

Composer ist ein Abhängigkeitspaketverwaltungstool unter PHP, ähnlich wie PIP in Python.

Die offizielle chinesische Website ist https://www.phpcomposer.com/

Führen Sie einfach cmd mit win+R aus und geben Sie den Composer-Befehl ein , die Installation ist erfolgreich.

So installieren Sie das PHP-Crawler-Framework

3. PHPspider-Installation

Erstellen Sie einen Ordner an einem beliebigen Ort, wenn wir beispielsweise die Daten erfassen möchten Kurzes Buch, wir Sie können den Jianshu-Ordner auf dem Laufwerk D erstellen, dann den Ordner mit dem Befehl cmd eingeben und den Befehl ausführen:

composer require owner888/phpspider

Das folgende Ergebnis ist eine erfolgreiche Installation.

So installieren Sie das PHP-Crawler-Framework

Verwandte Empfehlungen: „Einrichtung der PHP-Umgebung

4. Beginnen Sie mit dem Schreiben des ersten Crawlers

Öffnen Sie nun den Jianshu-Ordner. Sie werden feststellen, dass sich darin noch einige weitere Dinge befinden. Machen Sie sich keine Sorgen, erstellen Sie eine PHP-Datei und beginnen Sie mit dem Codieren.

So installieren Sie das PHP-Crawler-Framework

Die Entwicklungsdokumentation ist hier: https://doc.phpspider.org/demo-start.html

Ich werde nicht über die Grundlagen sprechen Gehen Sie hier einfach direkt zum Code, da wir ein 10-minütiges kurzes Tutorial durchführen.

Die Matching-Methode verwendet XPach-Syntax.

<?php
require &#39;/vendor/autoload.php&#39;;
use phpspider\core\phpspider;
/* Do NOT delete this comment */
/* 不要删除这段注释 */
$configs = array(
&#39;name&#39; => &#39;简书&#39;,
&#39;log_show&#39; =>false,
&#39;tasknum&#39; => 1,
//数据库配置
&#39;db_config&#39; => array(
&#39;host&#39;  => &#39;127.0.0.1&#39;,
&#39;port&#39;  => 3306,
&#39;user&#39;  => &#39;root&#39;,
&#39;pass&#39;  => &#39;&#39;,
&#39;name&#39;  => &#39;demo&#39;,
),
&#39;export&#39; => array(
&#39;type&#39; => &#39;db&#39;,
&#39;table&#39; => &#39;jianshu&#39;,  // 如果数据表没有数据新增请检查表结构和字段名是否匹配
),
//爬取的域名列表  
&#39;domains&#39; => array(
    &#39;jianshu&#39;,
    &#39;www.jianshu.com&#39;
), 
//抓取的起点
&#39;scan_urls&#39; => array(
    &#39;https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop&#39;
),
//列表页实例
&#39;list_url_regexes&#39; => array(
    "https://www.jianshu.com/c/\d+"
),
//内容页实例
//  \d+  指的是变量
&#39;content_url_regexes&#39; => array(
    "https://www.jianshu.com/p/\d+",
),
&#39;max_try&#39; => 5,
&#39;fields&#39; => array(
    array(
        &#39;name&#39; => "title",
        &#39;selector&#39; => "//h1[@class=&#39;title&#39;]",
        &#39;required&#39; => true,
    ),
    array(
        &#39;name&#39; => "content",
        &#39;selector&#39; => "//div[@class=&#39;show-content-free&#39;]",
        &#39;required&#39; => true,
    ),
),
);
$spider = new phpspider($configs);
$spider->start();

Lassen Sie uns die Bedeutung der Syntax ein wenig erklären:

//h1[@class=&#39;title&#39;]

Alle h1-Knoten mit dem Klassenwert title abrufen

//div[@class=&#39;show-content-free&#39;]

Alle Divs mit dem Klassenwert show-content-free abrufen Nachdem Sie den Code für den Knoten

fertiggestellt haben, denken Sie daran, die entsprechende Datenbank und Datentabelle entsprechend dem zu erfassenden Inhalt einzurichten und die Felder auszurichten.

So installieren Sie das PHP-Crawler-Framework

Geben Sie dann cmd ein:

php -f d:\jianshu\spider.php

Führen Sie Folgendes aus:

So installieren Sie das PHP-Crawler-Framework

So installieren Sie das PHP-Crawler-Framework

Öffnen Sie die Daten und werfen Sie einen Blick darauf. Haben Sie alles erfasst?

So installieren Sie das PHP-Crawler-Framework

Das obige ist der detaillierte Inhalt vonSo installieren Sie das PHP-Crawler-Framework. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn