ホームページ  >  記事  >  バックエンド開発  >  PHP マルチスレッド Web ページ クローリングのサンプル コード

PHP マルチスレッド Web ページ クローリングのサンプル コード

怪我咯
怪我咯オリジナル
2017-07-11 14:47:321158ブラウズ

マルチスレッド(英語: multithreading )とは、ソフトウェアまたはハードウェアから複数のスレッドの同時実行を実現する技術を指します。マルチスレッド機能を備えたコンピュータは、複数のスレッドを同時に実行できるハードウェア サポートを備えているため、全体的な処理パフォーマンスが向上します。この機能を備えたシステムには、対称型マルチプロセッサ、マルチコア プロセッサ、チップレベルのマルチスレッドまたは同時マルチスレッド プロセッサが含まれます。 [1] プログラムにおいて、これら独立して動作するプログラムの断片を「スレッド」と呼び、これを利用してプログラミングする概念を「マルチスレッド」といいます。マルチスレッド機能を備えたコンピュータは、ハードウェアのサポートにより複数のスレッド (台湾では「スレッド」と訳される) を同時に実行できるため、全体的な処理パフォーマンスが向上します。 PHP は Curl 関数を使用して、ブラウザをシミュレートして GET や

POST リクエスト

などを送信するなど、さまざまなファイル転送操作を完了できます。 PHP 言語自体がマルチスレッドをサポートしていないため、クローラ プログラムの開発効率は高くありません。多くの場合、同時マルチスレッド アクセスを実現できる Curl Multi Functions を使用する必要があります。複数の URL アドレスに送信します。 Curl Multi Function は非常に強力なので、Curl Multi Function を使用して同時マルチスレッド ファイル ダウンロードを作成できますか? もちろん、それは可能です。 私のコードを以下に示します:

コード 1: 取得したコードをファイルに直接書き込みます



コード以下の通り:

<?php 
$urls = array( 
&#39;http://www.php.cn/&#39;, 
&#39;http://www.baidu.com/&#39;, 
&#39;http://www.163.com/&#39; 
); // 设置要抓取的页面URL 

$save_to=&#39;/test.txt&#39;; // 把抓取的代码写入该文件 

$st = fopen($save_to,"a"); 
$mh = curl_multi_init(); 

foreach ($urls as $i => $url) { 
$conn[$i] = curl_init($url); 
curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)"); 
curl_setopt($conn[$i], CURLOPT_HEADER ,0); 
curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60); 
curl_setopt($conn[$i], CURLOPT_FILE,$st); // 设置将爬取的代码写入文件 
curl_multi_add_handle ($mh,$conn[$i]); 
} // 初始化 

do { 
curl_multi_exec($mh,$active); 
} while ($active); // 执行 

foreach ($urls as $i => $url) { 
curl_multi_remove_handle($mh,$conn[$i]); 
curl_close($conn[$i]); 
} // 结束清理 

curl_multi_close($mh); 
fclose($st); 
?>

コード2: 取得したコードをまず

変数

に入れてからファイルに書き込みます
コードは次のとおりです:

<?php 
$urls = array( 
&#39;http://www.php.cn/&#39;, 
&#39;http://www.baidu.com/&#39;, 
&#39;http://www.163.com/&#39; 
); 

$save_to=&#39;/test.txt&#39;; // 把抓取的代码写入该文件 
$st = fopen($save_to,"a"); 

$mh = curl_multi_init(); 
foreach ($urls as $i => $url) { 
$conn[$i] = curl_init($url); 
curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)"); 
curl_setopt($conn[$i], CURLOPT_HEADER ,0); 
curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60); 
curl_setopt($conn[$i],CURLOPT_RETURNTRANSFER,true); // 设置不将爬取代码写到浏览器,而是转化为字符串 
curl_multi_add_handle ($mh,$conn[$i]); 
} 

do { 
curl_multi_exec($mh,$active); 
} while ($active); 

foreach ($urls as $i => $url) { 
$data = curl_multi_getcontent($conn[$i]); // 获得爬取的代码字符串 
fwrite($st,$data); // 将字符串写入文件。当然,也可以不写入文件,比如存入数据库 
} // 获得数据变量,并写入文件 

foreach ($urls as $i => $url) { 
curl_multi_remove_handle($mh,$conn[$i]); 
curl_close($conn[$i]); 
} 

curl_multi_close($mh); 
fclose($st); 
?>

以上がPHP マルチスレッド Web ページ クローリングのサンプル コードの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。