PHPでWebクローラーを書く

WBOY
WBOYオリジナル
2016-06-23 13:32:07967ブラウズ

pcntl_fork または swoole_process はマルチプロセスの同時実行を実現します。各 Web ページをクロールするのに 500 ミリ秒かかり、200 のプロセスが開かれるという事実によると、1 秒あたり 400 ページをクロールできることになります。

curl はページクローリングを実装し、Cookie を設定することで模擬ログインを実現できます

simple_html_dom はページ解析と DOM 処理を実装します

ブラウザをシミュレートしたい場合は、casperJS を使用できます。 swoole 拡張機能を使用してサービス インターフェイスをカプセル化し、それを PHP レイヤーに呼び出します

Duowan.com には、上記の技術ソリューションに基づいたクローラー システムがあり、毎日数千万のページをクロールします。


声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。