ホームページ  >  記事  >  バックエンド開発  >  PHPをベースにしたクローラフレームワークの紹介と活用事例の詳細解説

PHPをベースにしたクローラフレームワークの紹介と活用事例の詳細解説

王林
王林オリジナル
2023-06-14 15:58:191576ブラウズ

インターネット情報の爆発的な増加に伴い、多くのユーザーにとって重要な価値のある大量のデータが Web サイトに保存されています。したがって、クローラー技術は徐々にインターネット データを活用する強力な手段になってきました。

この記事では、PHP 言語に基づくクローラー フレームワークである Guzzle と Goutte を紹介します。 Guzzle は、PHP 用に開発された HTTP クライアントで、HTTP リクエストを送信し、REST リソースと対話するために使用できます。 Goutte はそれを補完するもので、Web コンテンツを簡単に取得し、データの抽出と分析を実行できる Guzzle ベースの Web クローラー フレームワークです。

まず、PHP に Guzzle と Goutte をインストールする必要があります。 Composer からインストールできます。具体的なコマンドは次のとおりです:

composer require guzzlehttp/guzzle
composer require fabpot/goutte

インストールが完了したら、まず Guzzle の使い方を学びましょう。次のコードを使用して、HTTP GET リクエストを送信し、応答コンテンツを取得できます。

<?php
use GuzzleHttpClient;

$client = new Client();
$response = $client->get('https://www.example.com');
echo $response->getBody();

このコードは、まず GuzzleClient オブジェクトを作成し、次に get() メソッドを使用して GET リクエストを指定された URL に送信します。と 応答内容を取得しました。 getBody() メソッドを呼び出して、応答本文の内容を取得します。

Goutte は Guzzle をベースに開発された Web クローラー フレームワークであり、その使用方法も非常に簡単です。次に、Goutte を使用する簡単な例を示します。

<?php
use GoutteClient;

$client = new Client();
$crawler = $client->request('GET', 'https://www.example.com');
$crawler->filter('h1')->each(function ($node) {
    echo $node->text() . "
";
});

このコードは、Goutte を使用して Client オブジェクトを作成し、指定された URL に GET リクエストを送信し、応答本文を取得して DOM オブジェクトに解析します。 $crawler->filter('h1') は、ページ上のすべての h1 タグ ノードを指定するフィルターであり、 each() メソッドを呼び出します。各 h1 タグ ノードに対して、指定された匿名関数が実行されます。 $node は現在のノード オブジェクトであり、その text() メソッドはノードのテキスト コンテンツを取得できます。

以下のより完全な例を見てみましょう。これは、Goutte を使用して Zhihu 上の質問と回答をクロールし、ユーザー名、回答内容、いいねの数、回答時間を CSV ファイルに保存する方法を示しています。

<?php
use GoutteClient;

$client = new Client();
$crawler = $client->request('GET', 'https://www.zhihu.com/question/21774949');
$fp = fopen('output.csv', 'w');
fputcsv($fp, ['User', 'Content', 'Votes', 'Time']);
$crawler->filter('.List-item')->each(function ($node) use ($fp) {
    $user = $node->filter('.AuthorInfo .Popover')->text();
    $content = $node->filter('.RichText')->text();
    $votes = $node->filter('.Voters')->text();
    $time = $node->filter('.ContentItem-time')->text();
    fputcsv($fp, [$user, $content, $votes, $time]);
});
fclose($fp);

このコードは、まず Zhihu の質問 ID 21774949 のページをクロールし、次にファイル ハンドルを使用して CSV ヘッダー行をoutput.csv ファイルに書き込みます。次に、filter() メソッドを使用してページ上のすべての質問ノードと回答ノードを検索し、各ノードで匿名関数を実行します。匿名関数では、filter() メソッドを使用して各ユーザーの名前、回答内容、いいね数、回答時間を検索し、fputcsv() メソッドを使用してこれら 4 つのフィールドをファイルに書き込みます。最後にファイルハンドルを閉じます。

要約すると、Guzzle と Goutte を使用してクローラー フレームワークを構築するのは非常に簡単で、強力な柔軟性とスケーラビリティを備えており、データ マイニングを含む (ただしこれに限定されない) さまざまなシナリオに適用できます。 、SEO 最適化およびその他の分野。ただし、ターゲット Web サイトに過度の負担をかけたり、ユーザーのプライバシーを侵害したりしないように、クローラーは Web サイトの robots.txt ファイルに準拠する必要があることに注意してください。

以上がPHPをベースにしたクローラフレームワークの紹介と活用事例の詳細解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。