クローラーを作成するというと、誰もが最初に Python を思い浮かべるかもしれませんが、実は PHP を使用してクローラー プログラムを作成することもできます。 PHP は常にシンプルで使いやすいため、私は個人的に、PHPspider フレームワークを使用して簡単なクローラー プログラムを 10 分で作成できることをテストしました。
1. PHP環境のインストール
PHPもPythonと同様に環境が必要で、公式サイトからダウンロードしたPHPを使用するか、XAMPP、PHPstudy、その他の統合環境、PHP。 Mysql データベースを個別にインストールする必要がないように、統合環境をお勧めします。
2. Composer のインストール
composer は、Python の PIP に似た、PHP の依存関係パッケージ管理ツールです。
中国の公式サイトは https://www.phpcomposer.com/
ですので、ダウンロードしてインストールし、win R で cmd を実行し、composer コマンドを入力してください。 、インストールは成功しました。
3. PHPspiderのインストール
任意の場所にフォルダを作成します例えばJianshuのデータを取り込みたい場合D ドライブに jianshu フォルダーを作成し、cmd コマンドでそのフォルダーに入り、次のコマンドを実行します。
composer require owner888/phpspider
次の結果は、インストールが成功したことを示しています。
#関連する推奨事項: 「php 環境の構築 #」
4. 最初のクローラの作成を開始します
jianshu フォルダーを開くと、その中にさらにいくつかのものが含まれていることがわかります。心配しないで、php ファイルを作成し、コーディングを開始してください。 開発ドキュメントはこちらです: https://doc.phpspider.org/demo-start.html基本的なことについては説明しません。ここでは、10 分間の簡単なチュートリアルを行っているため、コードに移動するだけです。 マッチング方法では XPach 構文を使用します。<?php require '/vendor/autoload.php'; use phpspider\core\phpspider; /* Do NOT delete this comment */ /* 不要删除这段注释 */ $configs = array( 'name' => '简书', 'log_show' =>false, 'tasknum' => 1, //数据库配置 'db_config' => array( 'host' => '127.0.0.1', 'port' => 3306, 'user' => 'root', 'pass' => '', 'name' => 'demo', ), 'export' => array( 'type' => 'db', 'table' => 'jianshu', // 如果数据表没有数据新增请检查表结构和字段名是否匹配 ), //爬取的域名列表 'domains' => array( 'jianshu', 'www.jianshu.com' ), //抓取的起点 'scan_urls' => array( 'https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop' ), //列表页实例 'list_url_regexes' => array( "https://www.jianshu.com/c/\d+" ), //内容页实例 // \d+ 指的是变量 'content_url_regexes' => array( "https://www.jianshu.com/p/\d+", ), 'max_try' => 5, 'fields' => array( array( 'name' => "title", 'selector' => "//h1[@class='title']", 'required' => true, ), array( 'name' => "content", 'selector' => "//div[@class='show-content-free']", 'required' => true, ), ), ); $spider = new phpspider($configs); $spider->start();構文の意味を少し説明しましょう:
//h1[@class='title']title のクラス値を持つすべての h1 ノードを取得します。
//div[@class='show-content-free']show- のクラス値を持つすべての div を取得します。 content-free ノード のコードを完了したら、キャプチャするコンテンツに従って対応するデータベースとデータ テーブルを忘れずに作成し、フィールドを揃える必要があります。 次に、cmd に次のように入力します:
php -f d:\jianshu\spider.php次のように実行します: データを開いて見てください。すべてをキャプチャしましたか?
以上がPHPクローラーフレームワークのインストール方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。