ホームページ  >  記事  >  バックエンド開発  >  PHPクローラーフレームワークのインストール方法

PHPクローラーフレームワークのインストール方法

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼オリジナル
2019-09-29 17:09:092448ブラウズ

PHPクローラーフレームワークのインストール方法

クローラーを作成するというと、誰もが最初に Python を思い浮かべるかもしれませんが、実は PHP を使用してクローラー プログラムを作成することもできます。 PHP は常にシンプルで使いやすいため、私は個人的に、PHPspider フレームワークを使用して簡単なクローラー プログラムを 10 分で作成できることをテストしました。

1. PHP環境のインストール

PHPもPythonと同様に環境が必要で、公式サイトからダウンロードしたPHPを使用するか、XAMPP、PHPstudy、その他の統合環境、PHP。 Mysql データベースを個別にインストールする必要がないように、統合環境をお勧めします。

2. Composer のインストール

composer は、Python の PIP に似た、PHP の依存関係パッケージ管理ツールです。

中国の公式サイトは https://www.phpcomposer.com/

ですので、ダウンロードしてインストールし、win R で cmd を実行し、composer コマンドを入力してください。 、インストールは成功しました。

PHPクローラーフレームワークのインストール方法

3. PHPspiderのインストール

任意の場所にフォルダを作成します例えばJianshuのデータを取り込みたい場合D ドライブに jianshu フォルダーを作成し、cmd コマンドでそのフォルダーに入り、次のコマンドを実行します。

composer require owner888/phpspider

次の結果は、インストールが成功したことを示しています。

PHPクローラーフレームワークのインストール方法

#関連する推奨事項: 「

php 環境の構築 #」

4. 最初のクローラの作成を開始します

jianshu フォルダーを開くと、その中にさらにいくつかのものが含まれていることがわかります。心配しないで、php ファイルを作成し、コーディングを開始してください。

PHPクローラーフレームワークのインストール方法

開発ドキュメントはこちらです: https://doc.phpspider.org/demo-start.html

基本的なことについては説明しません。ここでは、10 分間の簡単なチュートリアルを行っているため、コードに移動するだけです。

マッチング方法では XPach 構文を使用します。

<?php
require &#39;/vendor/autoload.php&#39;;
use phpspider\core\phpspider;
/* Do NOT delete this comment */
/* 不要删除这段注释 */
$configs = array(
&#39;name&#39; => &#39;简书&#39;,
&#39;log_show&#39; =>false,
&#39;tasknum&#39; => 1,
//数据库配置
&#39;db_config&#39; => array(
&#39;host&#39;  => &#39;127.0.0.1&#39;,
&#39;port&#39;  => 3306,
&#39;user&#39;  => &#39;root&#39;,
&#39;pass&#39;  => &#39;&#39;,
&#39;name&#39;  => &#39;demo&#39;,
),
&#39;export&#39; => array(
&#39;type&#39; => &#39;db&#39;,
&#39;table&#39; => &#39;jianshu&#39;,  // 如果数据表没有数据新增请检查表结构和字段名是否匹配
),
//爬取的域名列表  
&#39;domains&#39; => array(
    &#39;jianshu&#39;,
    &#39;www.jianshu.com&#39;
), 
//抓取的起点
&#39;scan_urls&#39; => array(
    &#39;https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop&#39;
),
//列表页实例
&#39;list_url_regexes&#39; => array(
    "https://www.jianshu.com/c/\d+"
),
//内容页实例
//  \d+  指的是变量
&#39;content_url_regexes&#39; => array(
    "https://www.jianshu.com/p/\d+",
),
&#39;max_try&#39; => 5,
&#39;fields&#39; => array(
    array(
        &#39;name&#39; => "title",
        &#39;selector&#39; => "//h1[@class=&#39;title&#39;]",
        &#39;required&#39; => true,
    ),
    array(
        &#39;name&#39; => "content",
        &#39;selector&#39; => "//div[@class=&#39;show-content-free&#39;]",
        &#39;required&#39; => true,
    ),
),
);
$spider = new phpspider($configs);
$spider->start();

構文の意味を少し説明しましょう:

//h1[@class=&#39;title&#39;]

title のクラス値を持つすべての h1 ノードを取得します。

//div[@class=&#39;show-content-free&#39;]

show- のクラス値を持つすべての div を取得します。 content-free ノード

のコードを完了したら、キャプチャするコンテンツに従って対応するデータベースとデータ テーブルを忘れずに作成し、フィールドを揃える必要があります。

PHPクローラーフレームワークのインストール方法

次に、cmd に次のように入力します:

php -f d:\jianshu\spider.php

次のように実行します:

PHPクローラーフレームワークのインストール方法

PHPクローラーフレームワークのインストール方法

データを開いて見てください。すべてをキャプチャしましたか?

PHPクローラーフレームワークのインストール方法

以上がPHPクローラーフレームワークのインストール方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。