ホームページ >バックエンド開発 >PHPチュートリアル >PHPマルチスレッドで美人画像を一括収集・ダウンロードするための実装コード(続き)_PHPチュートリアル
個人的に考えられる影響の理由:
一致した画像の URL は有効な URL ではありません。記事では単純に相対パスかどうかを判断していますが、一部の URL は無効であるかどうかを判断するために新しい画像を追加します。本物の有効な URL
写真を収集するために再度テストしました
結果は以前よりも悪く、動作がさらに遅くなりました。
get_headers 関数は URL が本物で有効かどうかを判断できますが、非常に遅い URL リソースに遭遇した場合、get-heades リクエストには時間制限がないため、このスレッドは占有されてしまいます。
file_get_content 関数 上記と同じ理由で、一部の遅い URL リソースが長時間占有されるため、ブロックの背後にあるプロセスが占有され、長時間のブロックにより CPU 使用率も増加します。
解決策
curl のマルチスレッドを使用すると、URL リソースが非常に遅い場合に、断固として諦めることができるため、効率が向上します。比較的高いはずです。「CURL の学習と応用 [マルチスレッド化]」を参照してください。もう一度テストしてみましょう。
コアコード:
foreach($array as $k=>$url){
$conn[$k]=curl_init($url);//初始化
curl_setopt($conn[$k], CURLOPT_TIMEOUT, $timeout);//设置超时时间
curl_setopt($conn[$k], CURLOPT_USERAGENT, 'Mozilla/5.0 (compatible; MSIE 5.01; Windows NT 5.0)');
curl_setopt($conn[$k], CURLOPT_MAXREDIRS, 7);//HTTp定向级别 ,7最高
curl_setopt($conn[$k], CURLOPT_HEADER, false);//这里不要header,加块效率
curl_setopt($conn[$k], CURLOPT_FOLLOWLOCATION, 1); // 302 redirect
curl_setopt($conn[$k], CURLOPT_RETURNTRANSFER,1);//要求结果为字符串且输出到屏幕上
curl_setopt($conn[$k], CURLOPT_HTTPGET, true);
curl_multi_add_handle ($mh,$conn[$k]);
}
//防止死循环耗死cpu 这段是根据网上的写法
do {
$mrc = curl_multi_exec($mh,$active);//当无数据,active=true
} while ($mrc == CURLM_CALL_MULTI_PERFORM);//当正在接受数据时
while ($active and $mrc == CURLM_OK) {//当无数据时或请求暂停时,active=true
if (curl_multi_select($mh) != -1) {
do {
$mrc = curl_multi_exec($mh, $active);
} while ($mrc == CURLM_CALL_MULTI_PERFORM);
}
}
foreach ($array as $k => $url) {
if(!curl_errno($conn[$k])){
$data[$k]=curl_multi_getcontent($conn[$k]);//数据转换为array
$header[$k]=curl_getinfo($conn[$k]);//返回http头信息
curl_close($conn[$k]);//关闭语柄
curl_multi_remove_handle($mh , $conn[$k]); //释放资源
}else{
unset($k,$url);
}
}
curl_multi_close($mh);
return $data;
}
//参数接收
$callback = $_GET['callback'];
$hrefs = $_GET['hrefs'];
$urlarray = explode(',',trim($hrefs,','));
$date = date('Ymd',time());
//实例化
$img = new HttpImg();
$stime = $img->getMicrotime();//开始时间
$data = $img->Curl_http($urlarray,'20');//リストデータ
mkdir('./img/'.$date,0777);
foreach ((array)$data as $k =>$v){
preg_match_all("/(href|src)=(["|']?)([^ "'>]+.(jpg|png|PNG|JPG|gif))2/ i", $v, $matches[$k]);
if(count($matches[$k][3])>0){
$dataimg = $img->Curl_http($matches[$ k][3],'20');//全画像データバイナリ
$j = 0;
foreach ((array)$dataimg as $kk=>$vv){
if($vv !='' ){
$rand = rand(1000,9999);
$basename = time()."_".$rand.".".jpg;//jpg形式ファイルとして保存
$fname = './ img /'.$date."/"."$basename";
file_put_contents($fname, $vv);
$j++;
echo "".$j." 番目の画像を作成します"."$fname"。 "
";
}else{
unset($kk,$vv);
}
}
}else{
unset($matches);
}
}
$etime = $img-> ; getMicrotime();//終了時刻
echo "time".($etime-$stime)."秒";
終了;
効果をテストします
基本的に、1秒で1枚の写真を収集するのに約260秒かかります。また、より多くの写真を撮影するほど、収集速度の利点が明らかになることがわかります。
ファイル名を見てみましょう。これは、同時に 10 枚の画像を生成できることを意味します。
20 秒のリクエスト時間制限により、一部の画像は生成後に明らかに不完全になります。つまり、画像リソースは 20 秒以内に完全に収集されません。この時間は自分で設定できます。