搜索
首页后端开发php教程采集 初级的用php写的采集程序

可以先用这个采集然后在用帝国处理
####################################################################################
#作者:9elong
#网站:个人小站不值一提
#时间:2007-01-01
#声明:仅用于学习php之用。
#功能:采集单页面图片。
#说明:3个示范表单已经写好正则用来示范。没有任何功能说明,一切都在源代码里。附加论坛图片采集正则示范
####################################################################################
//把图片从信息页抓取下来的函数
function  getimg($url,$n,$key,$imgqian,$imgbiao,$titlekey)
{
                //$key图片地址正则
                //$titlekey图片标题正则
                //$imgqian图片地址前缀
                //$imgbiao图片地址特殊标识
                global  $n;
                global  $msg;
                global  $result;
                global  $imgadd;
                global  $title;
                $msg=file_get_contents($url);
                $key=str_replace("{图片地址}","(.+)",$key);
                $key="|".$key."|isU";
                preg_match_all($key,$msg,$result);
                $c=count($result[0]);
                for($i=0;$i                {
                                $img=$result[0][$i]."
";
                                if(ereg("^.*".$imgbiao.".*$",$img))
                                {
                                                $img=str_replace($imgbiao,$imgqian.$imgbiao,$img);
                                                preg_match("|http://(.+)jpg|isU",$img,$img);
                                                $imgadd[$n]=$img[0];
                                                //echo  "采集 初级的用php写的采集程序
";
                                                $n++;
                                }
                                elseif(ereg("^.*jpg.*$",$img))
                                {
                                                preg_match("|http://(.+)jpg|isU",$img,$img);
                                                $imgadd[$n]=$img[0];
                                                if($img[0]!="")
                                                $n++;
                                }
                                unset($img);
                }                                
                                $titlekey=str_replace("{图片标题}","(.+)",$titlekey);
                                $titlekey="|".$titlekey."|isU";
                                preg_match($titlekey,$msg,$title);
                                //echo  $title[0];
                                return  $title;
                return  $msg;
                return  $result;
                return  $n;
                return  $imgadd;
}
####################################################################################
#不支持file_get_contents()函数可以使用下面的替换
#$i=0;
#$handle=@fopen($url,"rb");
#while  (!@feof($handle))
#{
#                $buffer[$i]=  @fgets($handle,  4096);
#                $i++;
#}
#fclose($handle);
#$msg=join("",$buffer);
####################################################################################
if($_GET['act']=="getimgadd"&&$_POST['url']!="")
{
                $url=$_POST['url'];
        getimg($url,"0",$_POST['key'],$_POST['imgqian'],$_POST['imgbiao'],$_POST['titlekey']);
####################################################################################
        //获取分页
                if($_POST['getpage']=="是")
        {
                                $_POST['page']=str_replace("{分页地址}","(.+)",$_POST['page']);
                $page="|".$_POST['page']."|isU";
                //echo  $page;
        preg_match_all($page,$msg,$presult);
                if($_POST['pc']==""||$_POST['pc']=="全部")
                        $pc=count($presult[0]);
                else
                                $pc=$_POST['pc'];
                if($_POST['pc']>count($presult[0]))
                                $pc=count($presult[0]);
                for($i=1;$i                {
                                $pageurl=$presult[0][$i];
                                //echo  $pageurl."
";
                                if(ereg("^.*[1-9].*$",$pageurl))
                                {
                                                $pageurl=str_replace("                                                $pagekey=str_replace("{关键地址}","(.+)",$_POST['pagekey']);
                                                $pagekey="|".$pagekey."|isU";
                                                preg_match($pagekey,$pageurl,$N3[$i]);
                                                //echo  ($N3[$i][0])."
";
                                                getimg($N3[$i][0],$n,$_POST['key'],$_POST['imgqian'],$_POST['imgbiao'],$_POST['titlekey']);
                                }
                }
        }
####################################################################################
        echo  "图片集〖".$title[1]."〗".$n."张图片被抓取
返回首页
";
                while(list($num,$var)=each($imgadd))
                {
                                if($_POST['showtype']=="图片")
                                {
                                                echo  "采集 初级的用php写的采集程序
";
                                }
                                else
                                echo  $var."
";
                }
####################################################################################
                //exit();
}
?>
实例1(信息页有分页,使用了简单的分页正则):


输入图片地址

图片地址正则'>

图片地址前缀

图片地址标识

图片标题正则{图片标题}'>

分页地址正则.[0-9]'>

分页地址模式










实例2(信息页没有分页,所以分页正则为空):

输入图片地址

图片地址正则

图片地址前缀

图片地址标识

图片标题正则{图片标题}'>

分页地址正则

分页地址模式










实例3(信息页没有分页,所以分页正则为空,图片为绝对地址,所以图片地址前缀为空):

输入图片地址

图片地址正则采集 初级的用php写的采集程序'>

图片地址前缀

图片地址标识

图片标题正则{图片标题}'>

分页地址正则

分页地址模式










华声论坛图片为附件http://bbs.hnol.net/dispbbs2.asp?boardID=50&ID=336436
图片地址正则:upload=jpg{图片地址}upload
图片地址标识:bbs
图片标题正则:帖子主题:{图片标题}
华声论坛图片为外链http://bbs.hnol.net/dispbbs2.asp?boardID=50&ID=336253
图片地址正则:img]{图片地址}/img
图片地址标识:jpg
图片标题正则:帖子主题:{图片标题}

以上就介绍了采集 初级的用php写的采集程序,包括了采集方面的内容,希望对PHP教程有兴趣的朋友有所帮助。

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
iCloud存储已满通知:如何修复iCloud存储已满通知:如何修复Apr 24, 2024 pm 04:43 PM

每当您下载某些文件或空投某些内容时,您的iPhone是否显示“iCloud存储空间已满”?iCloud储存空间的免费套餐限制为仅5GB。因此,您应该检查的第一件事是手机上iCloud的当前存储情况。如果仍有足够的存储空间,并且您收到通知,则这些解决方案将帮助您进行故障排除。修复1–删除iCloud备份从手机设置中移除现有版本的iCloud备份。步骤1–打开设置。步骤2–您将在“设置”面板的顶部找到您的AppleID。点击它以打开它。步骤3–打开“iCloud”以打开iCloud设置。步骤4–向下

如何使用 Go 语言进行实时数据采集?如何使用 Go 语言进行实时数据采集?Jun 10, 2023 pm 05:46 PM

随着物联网技术的不断发展,实时数据采集已经成为了数字化时代不可或缺的一部分。而在各种编程语言中,Go语言以其高效的并发性能和简洁的语法,成为了实时数据采集的一种理想选择。本文将介绍如何使用Go语言进行实时数据采集。一、数据采集框架的选择在使用Go语言进行实时数据采集之前,我们需要选择一个适合我们的数据采集框架。目前市面上比较流行的数据采集框架包括

iPhone卡在请勿打扰模式:如何修复iPhone卡在请勿打扰模式:如何修复May 03, 2024 pm 09:07 PM

您的iPhone是否卡在“请勿打扰”模式下?如果您无法切换“请勿打扰”模式,可能会很麻烦。您根本不会收到任何警报。在iPhone上修复此免打扰问题不会花费太多精力。因此,无需再浪费时间,只需遵循这些简单的解决方案即可解决问题。修复1–删除免打扰计划如果您的手机上有任何“请勿打扰”时间表,它可能会强制设备自动进入免打扰状态。步骤1–转到iPhone的“设置”。步骤2–接下来,打开“焦点”模式。步骤3–您会在图表顶部找到“请勿打扰”。第4步–打开它。步骤5–在下一页上,如果您进入“时间表”选项卡,您

iPhone屏幕不断返回主屏幕iPhone屏幕不断返回主屏幕Apr 17, 2024 am 08:28 AM

每次打开特定应用程序时,您的iPhone屏幕是否一直返回主屏幕?这是一种异常行为,您返回主屏幕的原因是应用程序由于某种原因而崩溃。如果按照这些说明集进行故障排除,则可以更轻松地进行故障排除。修复1–更改点击行为iPhone上的后退手势之一可让您最小化当前应用程序。禁用点击行为应该可以解决此问题。步骤1–打开设置。步骤2–稍后,访问“辅助功能”设置以将其打开。步骤3–转到“物理和电机”功能,然后打开“触摸”设置。步骤4–一直向下滑动到“BackTap”设置。打开它。步骤5–在“后退点击”页面中,选

无法检查iPhone中的更新错误:修复无法检查iPhone中的更新错误:修复Apr 17, 2024 pm 10:40 PM

在iPhone上检查更新时,您是否收到此错误消息“无法检查更新”消息?通常,当您在手机脱机时手动搜索更新时,会出现此消息。因此,我们建议您启用Wi-Fi/蜂窝数据并再次执行相同的操作。如果您仍然遇到该问题,请按照其余的故障排除提示进行操作。修复1–启用Wi-Fi/蜂窝数据启用Wi-Fi或蜂窝移动网络数据,然后重试检查更新。步骤1–只需向下滑动即可访问控制中心。步骤2–在手机上启用Wi-Fi或蜂窝网络。现在,在启用网络连接后再次尝试更新过程。修复2–强制重启iPhone如果尽管启用了Wi-Fi/蜂

Python实现无头浏览器采集应用的基本功能介绍及使用方法Python实现无头浏览器采集应用的基本功能介绍及使用方法Aug 08, 2023 am 09:13 AM

Python实现无头浏览器采集应用的基本功能介绍及使用方法随着互联网的发展,爬虫技术在数据采集和信息挖掘方面扮演着重要的角色。无头浏览器是一种无界面的浏览器,它可以在后台模拟用户的操作,访问网页并抓取所需的数据。Python提供了多种库和工具来实现无头浏览器的功能,本文将介绍如何使用Python实现无头浏览器的基本功能,并提供相应的代码示例。一、无头浏览器的

Python实现无头浏览器采集应用的页面自动登录与会话管理功能剖析Python实现无头浏览器采集应用的页面自动登录与会话管理功能剖析Aug 09, 2023 pm 07:06 PM

Python实现无头浏览器采集应用的页面自动登录与会话管理功能剖析引言:随着互联网的快速发展,我们的生活越来越离不开网络应用。而对于很多网页类型的应用,我们需要手动进行登录才能获取更多的信息或操作某些功能。为了提高效率,我们可以通过自动化脚本实现页面自动登录与会话管理的功能。无头浏览器:在实现页面自动登录与会话管理功能之前,我们首先需要了解什么是无头浏览器。

Python实现无头浏览器采集应用的页面数据同步与更新功能详解Python实现无头浏览器采集应用的页面数据同步与更新功能详解Aug 09, 2023 pm 05:09 PM

Python实现无头浏览器采集应用的页面数据同步与更新功能详解随着互联网的快速发展,越来越多的应用程序需要和网页进行数据交互。而在实现这样的功能时,一种常见的方式是使用无头浏览器来模拟用户操作,以便获取网页上的数据。本文将详细介绍如何利用Python和无头浏览器实现应用的页面数据同步与更新功能,并提供相应的代码示例。环境准备首先,我们需要安装Python的相

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。