PHP批量采集下载美女图片的实现代码

首页

后端开发

php教程

PHP批量采集下载美女图片的实现代码_PHP

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 01, 2016 pm 12:07 PM

图片

设计思路

考虑到单纯的采集一个网页的图片，太麻烦，所以直接采集他的列表页，获取列表的url然后在一一采集，但是用php匹配列表页的url太麻烦，第一列表页有很多无效url这对我这个正则小菜鸟实在是个问题，看了一下列表页的结构，果断采用jquery获取url，jquery的万能选择器又再次强大起来了。

jquery获取url，然后ajax传递url—>对应PHP文件，遍历url参数—->单页面采集保存图片

jquery程序
复制代码代码如下:

<script> $(document).ready(function(){ var hrefs =''; $('.f_folder>a').each(function(i){ var href = $('.f_folder:eq('+i+')>a:eq(0)').attr('href'); if(href!='undefined'){ hrefs +=href+','; } }) $.getJSON("http://www.****.com/365/getimg.php?hrefs="+hrefs+"&callback=?", function(data){ //alert(data.info); }); }); </script>

这里把url拼接成‘，'分割的字符串传递url，使用getjson是为了跨域需要，关于getjson常见的几个问题可以参看

PHP采集程序
复制代码代码如下:
// 抓起365图片
error_reporting(E_ALL ^ E_NOTICE);
set_time_limit(0);//设置PHP超时时间
/**
* 得到当前时间
*/
function getMicrotime() {

list ($usec, $sec) = explode(" ", microtime());
return ((float) $usec + (float) $sec);
}
$stime = getMicrotime();

$callback = $_GET['callback'];
$hrefs = $_GET['hrefs'];
$urlarray = explode(',',$hrefs);

//获取指定url的所有图片
function getimgs($url){
$dirname = basename($url,".php");
if(!file_exists($dirname)){
mkdir('365/'.$dirname.'');
}
clearstatcache();
$data = file_get_contents($url);
preg_match_all("/(href|src)=(["|']?)([^ "'>]+.(jpg|png|PNG|JPG|gif))\2/i", $data, $matches);
//$matches[3] = array_unique($matches[3]);
unset($data);
$i=0;

if(count($matches[3])>0){
foreach($matches[3] as $k=>$v){
//简单判断是否是标准url，而不是相对路径
if(substr($v,0,4)=='http'){

$ext = pathinfo($v,PATHINFO_EXTENSION);//图片扩展

if(!file_exists('365/'.$dirname.'/'.$k.'.'.$ext)){
file_put_contents('365/'.$dirname.'/'.$k.'.'.$ext,file_get_contents($v));
$i++;
}else{
unset($v);
}
clearstatcache();
}else{
unset($v);
}
}
unset($matches);
return $i;
}
}

foreach($urlarray as $k=>$v){
if($v!=''){
$j +=getimgs($v);
}
}
$etime = getMicrotime();
echo "合计采集了".$j."张图片";
echo "用时".($etime-$stime)."秒";

考虑到性能问题：在getimgs方法中所用的变量都是使用后便注销（unset）了，以便释放内存。

设计到的几个知识点

判断是否是标准有效图片url
if(substr($v,0,4)=='http')这个只是简单的判断一下匹配到的图片url是否是标准的url，因为采集的图片可能是相对路径的，这里我直接放弃这种图片的采集，当然你也可以把这种图片还原成标准图片路径，还有一个问题就是即使是标准url格式，这样的图片也未必可以采集，因为你不知道这个图片是否还有，也许这个图片url已经无效了，如果你想更严格的判断这个图片url是否真实有效可以推荐看我之前的《PHP判断远程url是否有效的几种方法》有三种方法可以验证是否是有效url。

获取图片格式

$ext = pathinfo($v,PATHINFO_EXTENSION);//图片扩展

这里使用了pathinfo的方法，总结有7种方法可以获取到文件的格式，推荐文章：《PHP判断图片格式的七种方法》

下载保存到本地

file_put_contents('365/'.$dirname.'/'.$k.'.'.$ext,file_get_contents($v));
file_put_contents() 函数把一个字符串写入文件中。
与依次调用 fopen()，fwrite() 以及 fclose() 功能一样。
file_get_contents() 函数把整个文件读入一个字符串中。

因为服务器支持file_get_contents，如果服务器把这个函数禁用了，可以使用curl，这个工具要比file_get_contents更加强大，推荐学习《CURL的学习和应用(附多线程)》，可以使用curl的多线程下载存储，效果更牛逼

清除文件操作缓存

clearstatcache() 函数清除文件状态缓存。clearstatcache() 函数会缓存某些函数的返回信息，以便提供更高的性能。但是有时候，比如在一个脚本中多次检查同一个文件，而该文件在此脚本执行期间有被删除或修改的危险时，你需要清除文件状态缓存，以便获得正确的结果。要做到这一点，就需要使用 clearstatcache() 函数。官方手册：

程序执行时间计算

复制代码代码如下:
/**

* 得到当前时间

*/

function getMicrotime() {
list ($usec, $sec) = explode(" ", microtime());
return ((float) $usec + (float) $sec);
}

可以参考本博客文章；《获取php页面执行时间，数据库读写次数，函数调用次数等【THINKPHP】》

最后看一下效果；

PHP批量采集下载美女图片的实现代码_PHP

409秒采集了214张图片，大概2秒下载保存了一张图片，图片总大小约62M，这样看来：

一个小时60*60可以大约下载1800张美女图片。

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

如何使PHP应用程序更快May 12, 2025 am 12:12 AM

tomakephpapplicationsfaster，关注台词：1）useopcodeCachingLikeLikeLikeLikeLikePachetoStorePreciledScompiledScriptbyTecode.2）MinimimiedAtabaseSqueriSegrieSqueriSegeriSybysequeryCachingandeffeftExting.3）Leveragephp7 leveragephp7 leveragephp7 leveragephpphp7功能forbettercodeefficy.4）

PHP性能优化清单：立即提高速度May 12, 2025 am 12:07 AM

到ImprovephPapplicationspeed，关注台词：1）启用opcodeCachingwithapCutoredUcescriptexecutiontime.2）实现databasequerycachingusingpdotominiminimizedatabasehits.3）usehttp/2tomultiplexrequlexrequestsandredececonnection.4 limitsclection.4.4

PHP依赖注入：提高代码可检验性May 12, 2025 am 12:03 AM

依赖注入（DI）通过显式传递依赖关系，显着提升了PHP代码的可测试性。 1）DI解耦类与具体实现，使测试和维护更灵活。 2）三种类型中，构造函数注入明确表达依赖，保持状态一致。 3）使用DI容器管理复杂依赖，提升代码质量和开发效率。

PHP性能优化：数据库查询优化May 12, 2025 am 12:02 AM

databasequeryOptimizationinphpinvolVolVOLVESEVERSEVERSTRATEMIESOENHANCEPERANCE.1）SELECTONLYNLYNESSERSAYCOLUMNSTORMONTOUMTOUNSOUDSATATATATATATATATATATRANSFER.3）

简单指南：带有PHP脚本的电子邮件发送May 12, 2025 am 12:02 AM

phpisusedforsenderemailsduetoitsbuilt-inmail（）函数andsupportiveLibrariesLikePhpMailerandSwiftMailer.1）usethemail（）functionforbasicemails，butithasimails.2）butithasimimitations.2）

PHP性能：识别和修复瓶颈May 11, 2025 am 12:13 AM

PHP性能瓶颈可以通过以下步骤解决：1)使用Xdebug或Blackfire进行性能分析，找出问题所在；2)优化数据库查询并使用缓存，如APCu；3)使用array_filter等高效函数优化数组操作；4)配置OPcache进行字节码缓存；5)优化前端，如减少HTTP请求和优化图片；6)持续监控和优化性能。通过这些方法，可以显着提升PHP应用的性能。

PHP的依赖注入：快速摘要May 11, 2025 am 12:09 AM

依赖性注射（DI）InphpisadesignPatternthatManages和ReducesClassDeptions，增强量产生性，可验证性和Maintainability.itallowspasspassingDepentenciesLikEdenceSeconnectionSeconnectionStoclasseconnectionStoclasseSasasasasareTers，interitationApertatingAeseritatingEaseTestingEasingEaseTeStingEasingAndScalability。

提高PHP性能：缓存策略和技术May 11, 2025 am 12:08 AM

cachingimprovesphpermenceByStorcyResultSofComputationsorqucrouctationsorquctationsorquickretrieval，reducingServerLoadAndenHancingResponsetimes.feftectivestrategiesinclude：1）opcodecaching，whereStoresCompiledSinmememorytssinmemorytoskipcompliation; 2）datacaching datacachingsingMemccachingmcachingmcachings

See all articles