ホームページ  >  記事  >  バックエンド開発  >  PHP は Curl 関数を使用して、Web ページのマルチスレッド クロールとファイルのダウンロードを実装します。

PHP は Curl 関数を使用して、Web ページのマルチスレッド クロールとファイルのダウンロードを実装します。

WBOY
WBOYオリジナル
2016-06-20 13:03:411179ブラウズ

PHP は Curl 関数を使用して、ブラウザをシミュレートして GET や POST リクエストを送信するなど、さまざまなファイル転送操作を実行できます。ただし、PHP 言語自体はマルチスレッドをサポートしていないため、クローラー プログラムの開発効率は低くなります。 Curl Multi Functions を使用する必要があります。この機能は、Web ページの同時マルチスレッド クローリングやファイルのダウンロードを実現するために、複数の URL アドレスへの同時マルチスレッド アクセスを実装します。具体的な実装プロセスについては、を参照してください。次の例:

(1) 以下のコード スニペットは、複数の URL をキャプチャし、キャプチャした URL のページ コードを指定されたファイルに書き込みます

<p>$urls = array( </p>'http://www.scutephp.com/', <br />'http://www.google.com/', <br />'http://www.example.com/' <br />); // 设置要抓取的页面URL <br />$save_to='/test.txt'; // 把抓取的代码写入该文件 <br />$st = fopen($save_to,"a"); <br />$mh = curl_multi_init(); <br />foreach ($urls as $i => $url) { <br />$conn[$i] = curl_init($url); <br />curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)"); <br />curl_setopt($conn[$i], CURLOPT_HEADER ,0); <br />curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60); <br />curl_setopt($conn[$i], CURLOPT_FILE,$st); // 将爬取的代码写入文件 <br />curl_multi_add_handle ($mh,$conn[$i]); <br />} // 初始化 <br />do { <br />curl_multi_exec($mh,$active); <br />} while ($active); // 执行 <br />foreach ($urls as $i => $url) { <br />curl_multi_remove_handle($mh,$conn[$i]); <br />curl_close($conn[$i]); <br />} // 结束清理 <br />curl_multi_close($mh); <br /><p>fclose($st);

(2) 以下のコードと上記はほぼ同じ意味ですが、ここでは取得したコードを変数に入れてから、取得した内容を指定したファイルに書き込むことになります

<p>$urls = array( </p>'http://www.scutephp.com/', <br />'http://www.google.com/', <br />'http://www.example.com/' <br />); <br />$save_to='/test.txt'; // 把抓取的代码写入该文件 <br />$st = fopen($save_to,"a"); <br />$mh = curl_multi_init(); <br />foreach ($urls as $i => $url) { <br />$conn[$i] = curl_init($url); <br />curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)"); <br />curl_setopt($conn[$i], CURLOPT_HEADER ,0); <br />curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60); <br />curl_setopt($conn[$i],CURLOPT_RETURNTRANSFER,true); // 不将爬取代码写到浏览器,而是转化为字符串 <br />curl_multi_add_handle ($mh,$conn[$i]); <br />} <br />do { <br />curl_multi_exec($mh,$active); <br />} while ($active); <br />foreach ($urls as $i => $url) { <br />$data = curl_multi_getcontent($conn[$i]); // 获得爬取的代码字符串 <br />fwrite($st,$data); // 将字符串写入文件<br />} // 获得数据变量,并写入文件 <br />foreach ($urls as $i => $url) { <br />curl_multi_remove_handle($mh,$conn[$i]); <br />curl_close($conn[$i]); <br />}<br />curl_multi_close($mh); <br /><p>fclose($st);

(3 ) 次のコードは、PHP の Curl 関数

<p>$urls=array(</p>	'http://www.scutephp.com/5w.zip',<br />	'http://www.scutephp.com/5w.zip',<br />	'http://www.scutephp.com/5w.zip'<br />);<br />$save_to='./home/';<br />$mh=curl_multi_init();<br />foreach($urls as $i=>$url){<br />	$g=$save_to.basename($url);<br />	if(!is_file($g)){<br />		$conn[$i]=curl_init($url);<br />		$fp[$i]=fopen($g,"w");<br />		curl_setopt($conn[$i],CURLOPT_USERAGENT,"Mozilla/4.0(compatible; MSIE 7.0; Windows NT 6.0)");<br />		curl_setopt($conn[$i],CURLOPT_FILE,$fp[$i]);<br />		curl_setopt($conn[$i],CURLOPT_HEADER ,0);<br />		curl_setopt($conn[$i],CURLOPT_CONNECTTIMEOUT,60);<br />		curl_multi_add_handle($mh,$conn[$i]);<br />	}<br />}<br />do{<br />	$n=curl_multi_exec($mh,$active);<br />}while($active);<br />foreach($urls as $i=>$url){<br />	curl_multi_remove_handle($mh,$conn[$i]);<br />	curl_close($conn[$i]);<br />	fclose($fp[$i]);<br />}<br />curl_multi_close($mh);$urls=array(<br />	'http://www.scutephp.com/5w.zip',<br />	'http://www.scutephp.com/5w.zip',<br />	'http://www.scutephp.com/5w.zip'<br />);<br />$save_to='./home/';<br />$mh=curl_multi_init();<br />foreach($urls as $i=>$url){<br />	$g=$save_to.basename($url);<br />	if(!is_file($g)){<br />		$conn[$i]=curl_init($url);<br />		$fp[$i]=fopen($g,"w");<br />		curl_setopt($conn[$i],CURLOPT_USERAGENT,"Mozilla/4.0(compatible; MSIE 7.0; Windows NT 6.0)");<br />		curl_setopt($conn[$i],CURLOPT_FILE,$fp[$i]);<br />		curl_setopt($conn[$i],CURLOPT_HEADER ,0);<br />		curl_setopt($conn[$i],CURLOPT_CONNECTTIMEOUT,60);<br />		curl_multi_add_handle($mh,$conn[$i]);<br />	}<br />}<br />do{<br />	$n=curl_multi_exec($mh,$active);<br />}while($active);<br />foreach($urls as $i=>$url){<br />	curl_multi_remove_handle($mh,$conn[$i]);<br />	curl_close($conn[$i]);<br />	fclose($fp[$i]);<br />}<br />curl_multi_close($mh);


を使用してファイルの同時マルチスレッド ダウンロードを実装します。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。