搜索
首页后端开发php教程php抓取网站图片的程序

此程序实现了网页源代码捕获,图片链接获取、分析、并将同样的图片链接合并功能,实现了图片抓取功能。

利用php强大的网络内容处理函数将指定的网站上的所有图片抓取下来,保存在当前目录下,以下为代码:

<p><?php</p>/*完成网页内容捕获功能*/<br />function get_img_url($site_name){<br />    $site_fd = fopen($site_name, "r");<br />    $site_content = "";<br />    while (!feof($site_fd)) {<br />        $site_content .= fread($site_fd, 1024);<br />    }<br />   /*利用正则表达式得到图片链接*/<br />    $reg_tag = '/<img .*?\"([^\"]*(jpg|bmp|jpeg|gif)).*? alt="php抓取网站图片的程序" >/';<br />    $ret = preg_match_all($reg_tag, $site_content, $match_result);<br />    fclose($site_fd);<br />    return $match_result[1];<br />}<br /><br />/* 对图片链接进行修正 */<br />function revise_site($site_list, $base_site){<br />    foreach($site_list as $site_item) {<br />        if (preg_match('/^http/', $site_item)) {<br />            $return_list[] = $site_item;<br />        }else{<br />            $return_list[] = $base_site."/".$site_item;<br />    }<br />    }<br />    return $return_list;<br />}<br /><br />/*得到图片名字,并将其保存在指定位置*/<br />function get_pic_file($pic_url_array, $pos){<br />    $reg_tag = '/.*\/(.*?)$/';<br />    $count = 0;<br />    foreach($pic_url_array as $pic_item){<br />        $ret = preg_match_all($reg_tag,$pic_item,$t_pic_name);<br />        $pic_name = $pos.$t_pic_name[1][0];<br />        $pic_url = $pic_item;<br />    print("Downloading ".$pic_url." ");<br />        $img_read_fd = fopen($pic_url,"r");<br />        $img_write_fd = fopen($pic_name,"w");<br />        $img_content = "";<br />        while(!feof($img_read_fd)){<br />            $img_content .= fread($img_read_fd,1024);<br />          <br />        }<br />        fwrite($img_write_fd,$img_content);<br />        fclose($img_read_fd);<br />        fclose($img_write_fd);<br />        print("[OK] ");<br />    }<br />    return 0;<br />}<br /><br />function main(){<br />/* 待抓取图片的网页地址 */<br />    $site_name = "http://image.cn.yahoo.com";<br />    $img_url = get_img_url($site_name);<br />    $img_url_revised = revise_site($img_url, $site_name);<br />    $img_url_unique = array_unique($img_url_revised); //unique array<br />    get_pic_file($img_url_unique,"./"); <br />}<br /><br />main();<br /><p>?></p>

此程序还有待完善的地方是,如果图片在网站服务器上不同目录下但文件名是相同的,此时图片有可能是不一样的,但在最后保存时,后面得到的图片会将前面已经保存的图片覆盖掉,如在http://example.com/网站上有图片链接http://example.com/pic/test1.jpg和http://example.com/pic/new/test1.jpg那么在下载时这两张图片只有一张保存,另一张就被覆盖掉,修正的方法是在每次保存前先检索当前目录下是否已有此文件名,有的话对将要保存的图片重新命名即可。


声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
PHP的完整形式是什么?PHP的完整形式是什么?Apr 28, 2025 pm 04:58 PM

文章讨论了PHP,详细介绍了其完整形式,在We​​b开发中的主要用途,与Python和Java的比较以及对初学者的学习便利性。

PHP如何处理形式数据?PHP如何处理形式数据?Apr 28, 2025 pm 04:57 PM

PHP使用$ \ _ post和$ \ _获取超级全局的php处理数据,并通过验证,消毒和安全数据库交互确保安全性。

PHP和ASP.NET有什么区别?PHP和ASP.NET有什么区别?Apr 28, 2025 pm 04:56 PM

本文比较了PHP和ASP.NET,重点是它们对大规模Web应用程序,性能差异和安全功能的适用性。两者对于大型项目都是可行的,但是PHP是开源和无关的,而ASP.NET,

PHP是对病例敏感的语言吗?PHP是对病例敏感的语言吗?Apr 28, 2025 pm 04:55 PM

PHP的情况敏感性各不相同:功能不敏感,而变量和类是敏感的。最佳实践包括一致的命名和使用对案例不敏感的功能进行比较。

您如何重定向PHP中的页面?您如何重定向PHP中的页面?Apr 28, 2025 pm 04:54 PM

本文讨论了PHP中针对页面重定向的各种方法,重点关注header()函数,并解决了诸如“标题已经发送”错误之类的常见问题。

解释PHP中的类型暗示解释PHP中的类型暗示Apr 28, 2025 pm 04:52 PM

文章讨论了PHP中的类型暗示,这是一个用于指定功能中预期数据类型的功能。主要问题是通过类型执法提高代码质量和可读性。

PHP中的PDO是什么?PHP中的PDO是什么?Apr 28, 2025 pm 04:51 PM

本文讨论了PHP数据对象(PDO),这是PHP中数据库访问的扩展名。它通过准备好的语句及其对MySQLI的好处,包括数据库抽象和更好的错误处理,强调了PDO在增强安全性方面的作用。

如何在PHP中创建API?如何在PHP中创建API?Apr 28, 2025 pm 04:50 PM

文章讨论了创建和保护PHP API,详细介绍了从端点定义到使用Laravel和最佳安全实践等框架优化性能优化的步骤。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器