PHPをベースにしたクローラフレームワークの紹介と活用事例の詳細解説-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHPをベースにしたクローラフレームワークの紹介と活用事例の詳細解説

王林

Jun 14, 2023 pm 03:58 PM

phpクローラーフレームワークアプリケーション

インターネット情報の爆発的な増加に伴い、多くのユーザーにとって重要な価値のある大量のデータが Web サイトに保存されています。したがって、クローラー技術は徐々にインターネットデータを活用する強力な手段になってきました。

この記事では、PHP 言語に基づくクローラーフレームワークである Guzzle と Goutte を紹介します。 Guzzle は、PHP 用に開発された HTTP クライアントで、HTTP リクエストを送信し、REST リソースと対話するために使用できます。 Goutte はそれを補完するもので、Web コンテンツを簡単に取得し、データの抽出と分析を実行できる Guzzle ベースの Web クローラーフレームワークです。

まず、PHP に Guzzle と Goutte をインストールする必要があります。 Composer からインストールできます。具体的なコマンドは次のとおりです:

composer require guzzlehttp/guzzle
composer require fabpot/goutte

インストールが完了したら、まず Guzzle の使い方を学びましょう。次のコードを使用して、HTTP GET リクエストを送信し、応答コンテンツを取得できます。

<?php
use GuzzleHttpClient;

$client = new Client();
$response = $client->get('https://www.example.com');
echo $response->getBody();

このコードは、まず GuzzleClient オブジェクトを作成し、次に get() メソッドを使用して GET リクエストを指定された URL に送信します。と応答内容を取得しました。 getBody() メソッドを呼び出して、応答本文の内容を取得します。

Goutte は Guzzle をベースに開発された Web クローラーフレームワークであり、その使用方法も非常に簡単です。次に、Goutte を使用する簡単な例を示します。

<?php
use GoutteClient;

$client = new Client();
$crawler = $client->request('GET', 'https://www.example.com');
$crawler->filter('h1')->each(function ($node) {
    echo $node->text() . "
";
});

このコードは、Goutte を使用して Client オブジェクトを作成し、指定された URL に GET リクエストを送信し、応答本文を取得して DOM オブジェクトに解析します。 $crawler->filter('h1') は、ページ上のすべての h1 タグノードを指定するフィルターであり、 each() メソッドを呼び出します。各 h1 タグノードに対して、指定された匿名関数が実行されます。 $node は現在のノードオブジェクトであり、その text() メソッドはノードのテキストコンテンツを取得できます。

以下のより完全な例を見てみましょう。これは、Goutte を使用して Zhihu 上の質問と回答をクロールし、ユーザー名、回答内容、いいねの数、回答時間を CSV ファイルに保存する方法を示しています。

<?php
use GoutteClient;

$client = new Client();
$crawler = $client->request('GET', 'https://www.zhihu.com/question/21774949');
$fp = fopen('output.csv', 'w');
fputcsv($fp, ['User', 'Content', 'Votes', 'Time']);
$crawler->filter('.List-item')->each(function ($node) use ($fp) {
    $user = $node->filter('.AuthorInfo .Popover')->text();
    $content = $node->filter('.RichText')->text();
    $votes = $node->filter('.Voters')->text();
    $time = $node->filter('.ContentItem-time')->text();
    fputcsv($fp, [$user, $content, $votes, $time]);
});
fclose($fp);

このコードは、まず Zhihu の質問 ID 21774949 のページをクロールし、次にファイルハンドルを使用して CSV ヘッダー行をoutput.csv ファイルに書き込みます。次に、filter() メソッドを使用してページ上のすべての質問ノードと回答ノードを検索し、各ノードで匿名関数を実行します。匿名関数では、filter() メソッドを使用して各ユーザーの名前、回答内容、いいね数、回答時間を検索し、fputcsv() メソッドを使用してこれら 4 つのフィールドをファイルに書き込みます。最後にファイルハンドルを閉じます。

要約すると、Guzzle と Goutte を使用してクローラーフレームワークを構築するのは非常に簡単で、強力な柔軟性とスケーラビリティを備えており、データマイニングを含む (ただしこれに限定されない) さまざまなシナリオに適用できます。、SEO 最適化およびその他の分野。ただし、ターゲット Web サイトに過度の負担をかけたり、ユーザーのプライバシーを侵害したりしないように、クローラーは Web サイトの robots.txt ファイルに準拠する必要があることに注意してください。

以上がPHPをベースにしたクローラフレームワークの紹介と活用事例の詳細解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

PHP多次元アレイの要素の総数を計算する方法は？May 15, 2025 pm 09:00 PM

PHP多次元アレイの要素の総数を計算することは、再帰的または反復的な方法を使用して行うことができます。 1.再帰的な方法は、アレイを通過し、ネストされた配列を再帰的に処理することによりカウントされます。 2。反復法は、スタックを使用して再帰をシミュレートして深さの問題を回避します。 3. array_walk_recursive関数も実装できますが、手動でカウントする必要があります。

PHPのDo-While Loopsの特徴は何ですか？May 15, 2025 pm 08:57 PM

PHPでは、ループの特性は、ループ本体が少なくとも1回実行されることを確認し、条件に基づいてループを続行するかどうかを決定することです。 1）条件付きチェックの前にループ本体を実行します。これは、ユーザー入力検証やメニューシステムなど、操作を少なくとも1回実行する必要があるシナリオに適しています。 2）ただし、do-whileループの構文は、初心者間の混乱を引き起こす可能性があり、不要なパフォーマンスオーバーヘッドを追加する可能性があります。

PHPで弦をハッシュする方法は？May 15, 2025 pm 08:54 PM

PHPの効率的なハッシュ文字列は、次の方法を使用できます。1。MD5関数を使用して高速ハッシュを使用しますが、パスワードストレージには適していません。 2。SHA256関数を使用して、セキュリティを改善します。 3. password_hash関数を使用してパスワードを処理して、最高のセキュリティと利便性を提供します。

PHPに配列スライディングウィンドウを実装する方法は？May 15, 2025 pm 08:51 PM

PHPに配列スライディングウィンドウを実装することは、slidewindowとslidewindowaverage関数によって実行できます。 1. SlideWindow関数を使用して、配列を固定サイズのサブアレイに分割します。 2。各ウィンドウの平均値を計算するには、SlideWindowaverage関数を使用します。 3.リアルタイムのデータストリームの場合、非同期処理と外れ値検出を使用して使用できます。

PHPで__CLONEメソッドを使用する方法は？May 15, 2025 pm 08:48 PM

PHPの__Cloneメソッドは、オブジェクトクローン時にカスタム操作を実行するために使用されます。クローンキーワードを使用してオブジェクトをクローニングする場合、オブジェクトに__クローンメソッドがある場合、メソッドが自動的に呼び出され、クローン型属性をリセットしてクローンオブジェクトの独立性を確保するなど、クローンプロセス中にカスタマイズされた処理を許可します。

PHPでGOTOステートメントを使用する方法は？May 15, 2025 pm 08:45 PM

PHPでは、GOTOステートメントは、プログラムの特定のタグに無条件にジャンプするために使用されます。 1）複雑なネストされたループまたは条件付きステートメントの処理を簡素化することができますが、2）GOTOを使用すると、コードの理解と維持が困難になる場合があります。3）構造化された制御ステートメントの使用を優先することをお勧めします。全体として、gotoは注意して使用する必要があり、コードの読みやすさと保守性を確保するために、ベストプラクティスに従う必要があります。

PHPにデータ統計を実装する方法は？May 15, 2025 pm 08:42 PM

PHPでは、組み込み関数、カスタム関数、およびサードパーティライブラリを使用してデータ統計を実現できます。 1）array_sum（）やcount（）などの組み込み関数を使用して、基本統計を実行します。 2）カスタム関数を記述して、中央値などの複雑な統計を計算します。 3）PHP-MLライブラリを使用して、高度な統計分析を実行します。これらの方法により、データ統計を効率的に実行できます。

PHPで匿名関数を使用する方法は？May 15, 2025 pm 08:39 PM

はい、PHPの匿名関数は、名前のない関数を参照します。これらは、他の関数へのパラメーターとして、および関数の返品値として渡すことができ、コードをより柔軟で効率的にします。匿名関数を使用する場合、範囲とパフォーマンスの問題に注意を払う必要があります。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。