ホームページ >PHPフレームワーク >Swoole >Swoole の実践: コルーチンを使用して高性能のクローラーを構築する方法

Swoole の実践: コルーチンを使用して高性能のクローラーを構築する方法

PHPzオリジナル: 2023-06-15 13:07:481123ブラウズ

インターネットの普及に伴い、Web クローラーは非常に重要なツールになりました。これを使用すると、必要なデータを迅速にクロールできるため、データ取得コストを削減できます。クローラーの実装では、パフォーマンスが常に重要な考慮事項となります。 Swoole は PHP に基づいたコルーチンフレームワークで、高性能 Web クローラーを迅速に構築するのに役立ちます。この記事では、Web クローラーでの Swoole コルーチンのアプリケーションを紹介し、Swoole を使用して高性能 Web クローラーを構築する方法を説明します。

1. Swoole コルーチンの概要

Swoole コルーチンを紹介する前に、まずコルーチンの概念を理解する必要があります。コルーチンは、マイクロスレッドとも呼ばれるユーザーモードスレッドであり、スレッドの作成と破棄によって生じるオーバーヘッドを回避できます。コルーチンはより軽量なスレッドとみなすことができ、プロセス内で複数のコルーチンを作成でき、いつでもコルーチンを切り替えて同時実行効果を実現できます。

Swoole はコルーチンをベースにしたネットワーク通信フレームワークで、PHP のスレッドモデルをコルーチンモデルに変更することで、プロセス間の切り替えコストを回避できます。 Swoole のコルーチンモデルでは、プロセスは数万の同時リクエストを同時に処理できるため、プログラムの同時処理能力が大幅に向上します。

2. Web クローラーでの Swoole コルーチンの適用

Web クローラーの実装では、通常、同時リクエストを処理するためにマルチスレッドまたはマルチプロセスが使用されます。ただし、この方法には、スレッドまたはプロセスの作成と破棄のオーバーヘッドが高く、スレッドまたはプロセス間の切り替えにもオーバーヘッドが発生し、スレッドまたはプロセス間の通信の問題も考慮する必要があるなど、いくつかの欠点があります。 Swoole コルーチンはこれらの問題を解決し、高性能 Web クローラーを簡単に実装できます。

Swoole コルーチンを使用して Web クローラーを実装する主なプロセスは次のとおりです:

クロールされたページの URL リストを定義します。
Swoole コルーチンの http クライアントを使用して HTTP リクエストを送信し、ページデータを取得し、ページデータを解析します。
解析されたデータを処理して保存するには、データベース、Redis などを保存に使用できます。
Swoole コルーチンのタイマー機能を使用して、クローラーの実行時間を設定し、タイムアウトになったら実行を停止します。

具体的な実装については、次のクローラーコードを参照してください:

<?php

use SwooleCoroutineHttpClient;

class Spider
{
    private $urls = array();
    private $queue;
    private $maxDepth = 3; // 最大爬取深度
    private $currDepth = 0; // 当前爬取深度
    private $startTime;
    private $endTime;
    private $concurrency = 10; // 并发数
    private $httpClient;

    public function __construct($urls)
    {
        $this->urls = $urls;
        $this->queue = new SplQueue();
        $this->httpClient = new Client('127.0.0.1', 80);
    }

    public function run()
    {
        $this->startTime = microtime(true);
        foreach ($this->urls as $url) {
            $this->queue->enqueue($url);
        }
        while (!$this->queue->isEmpty() && $this->currDepth <= $this->maxDepth) {
            $this->processUrls();
            $this->currDepth++;
        }
        $this->endTime = microtime(true);
        echo "爬取完成，用时：" . ($this->endTime - $this->startTime) . "s
";
    }

    private function processUrls()
    {
        $n = min($this->concurrency, $this->queue->count());
        $array = array();
        for ($i = 0; $i < $n; $i++) {
            $url = $this->queue->dequeue();
            $array[] = $this->httpClient->get($url);
        }
        // 等待所有请求结束
        foreach ($array as $httpResponse) {
            $html = $httpResponse->body;
            $this->parseHtml($html);
        }
    }

    private function parseHtml($html)
    {
        // 解析页面
        // ...
        // 处理并存储数据
        // ...
        // 将页面中的URL添加到队列中
        // ...
    }
}

上記のコードでは、Swoole コルーチンの Http クライアントを使用して HTTP リクエストを送信し、PHP を使用します。組み込みの DOMDocument クラスを使用すると、実際のビジネスニーズに応じてデータを処理および保存するためのコードを実装できます。

3. Swoole を使用して高性能 Web クローラーを構築する方法

マルチプロセス/マルチスレッド

マルチプロセスの使用/実現するマルチスレッド方式 Web クローリングでは、プロセス/スレッドのコンテキスト切り替えのオーバーヘッドと、プロセス/スレッド間の通信の問題に注意する必要があります。同時に、PHP 自体の制限により、マルチコア CPU が十分に活用されない可能性があります。

Swoole コルーチン

Swoole コルーチンを使用すると、高性能 Web クローラーを簡単に実装でき、マルチプロセス/マルチスレッドの問題も回避できます。

Swoole コルーチンを使用して Web クローラーを実装する場合は、次の点に注意する必要があります。

(1) コルーチンを使用して HTTP リクエストを送信します。

(2) コルーチンを使用してページデータを解析します。

(3) コルーチンを使用してデータを処理します。

(4) タイマー機能を使用して、クローラーの実行時間を設定します。

(5) キューを使用してクロールされた URL を管理します。

(6) クローラーの効率を向上させるために同時実行数を設定します。

4. 概要

この記事では、Swoole コルーチンを使用して高性能 Web クローラーを構築する方法を紹介します。 Swoole コルーチンを使用すると、高性能 Web クローラーを簡単に実装できると同時に、マルチスレッド/マルチプロセスに関するいくつかの問題を回避できます。実際のアプリケーションでは、キャッシュや CDN を使用してクローラの効率を向上させるなど、実際のビジネスニーズに応じた最適化を実行できます。

以上がSwoole の実践: コルーチンを使用して高性能のクローラーを構築する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Swoole Advanced: メモリを効率的に管理する方法次の記事：Swoole Advanced: メモリを効率的に管理する方法

続きを見る