ホームページ >バックエンド開発 >PHPチュートリアル >PHPでWebクローラーを書く
pcntl_fork または swoole_process はマルチプロセスの同時実行を実現します。各 Web ページをクロールするのに 500 ミリ秒かかり、200 のプロセスが開かれるという事実によると、1 秒あたり 400 ページをクロールできることになります。
curl はページクローリングを実装し、Cookie を設定することで模擬ログインを実現できます
simple_html_dom はページ解析と DOM 処理を実装します
ブラウザをシミュレートしたい場合は、casperJS を使用できます。 swoole 拡張機能を使用してサービス インターフェイスをカプセル化し、それを PHP レイヤーに呼び出します
Duowan.com には、上記の技術ソリューションに基づいたクローラー システムがあり、毎日数千万のページをクロールします。