この記事では、主に phpspider クローラーの使用方法について説明します。Python クローラーを使用するのは非常に便利ですが、php はこの利便性において弱いわけではなく、フレームワーク クローラーを使用する方が実際にははるかに効率的であることがわかりました。
1、まず phpspider
2 の構造を見てみましょう。例えば、南昌ニュースネットワーク
のカテゴリをクロールする場合、このコメントが追加される必要があります。そうでない場合は、エラーが報告されます。ソース コードを確認してください。ソース コードには多くのメソッドがあります
3、次にクローラーを設定します:
4、次に設定ファイルをフレームワーク クラス ファイルとインスタンス化:
ここでの on_scan_page はクローラーです。これらの URL は、設定した content_url_regxes の通常のルールと一致するため、後続のクロール プロセスで、これらのページのデータがクロールされます
5、および一致したフィールドが処理されます コールバック処理:
6、クロールされたデータをデータベースに処理し、実行します
上記は単なる例であり、マルチプロセス クロール、プロキシを実行することもできますクローラー、とても楽しいです。
関連する推奨事項:
以上がphpspiderクローラーの使い方の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。