使用file_get_contents和curl写采集-php教程-PHP中文网

首页

后端开发

php教程

使用file_get_contents和curl写采集

PHP中文网

Jul 29, 2017 pm 06:27 PM

curlfile

经常会发现要用到的数据都在一个网站上，而且数据展现格式都是一样，比如淘宝或亚马逊上成千上万的产品，如果手工录入信息的话工作量就太大了，这时我们就可以编写采集程序直接采集并展现出来。服务器支持file_get_contents和curl

首先在页面加入一个文本框和提交按钮，文本框用来输入采集页面地址。

采集需要用到正则截取函数

function preg_substr($start, $end, $str) // 正则截取函数      
{      
    $temp = preg_split($start, $str);      
    $content = preg_split($end, $temp[1]);      
    return $content[0];      
}

采集需要用到字符串截取函数

function str_substr($start, $end, $str) // 字符串截取函数      
{      
    $temp = explode($start, $str, 2);      
    $content = explode($end, $temp[1], 2);      
    return $content[0];      
}

还有一个保存采集的内容的函数：

function writelog($str)
{
@unlink("log.txt");
$open=fopen("log.txt","a" );
fwrite($open,$str);
fclose($open);
}

有时候采集到的内容和我们通过浏览器查看的内容不一致，导致我们找不到正确的正则表达式，这里就可以打开保存的txt文件，在里面找到正确的截取字符串。

如果需要连图片也采集下来就需要用到图片函数：

function getImage($url, $filename=&#39;&#39;, $dirName, $fileType, $type=0)
{
    if($url == &#39;&#39;){return false;}
    //获取文件原文件名
    $defaultFileName = basename($url);
    //获取文件类型
    $suffix = substr(strrchr($url,&#39;.&#39;), 1);
    if(!in_array($suffix, $fileType)){
        return false;
    }
    //设置保存后的文件名
    $filename = $filename == &#39;&#39; ? time().rand(0,9).&#39;.&#39;.$suffix : $defaultFileName;
          
    //获取远程文件资源
    if($type){
        $ch = curl_init();
        $timeout = 5;
        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
        $file = curl_exec($ch);
        curl_close($ch);
    }else{
        ob_start();
        readfile($url);
        $file = ob_get_contents();
        ob_end_clean();
    }
    //设置文件保存路径
    $dirName = $dirName.&#39;/&#39;.date(&#39;Y&#39;, time()).&#39;/&#39;.date(&#39;m&#39;, time()).&#39;/&#39;.date(&#39;d&#39;,time()).&#39;/&#39;;
    if(!file_exists($dirName)){
        mkdir($dirName, 0777, true);
    }
    //保存文件
    $res = fopen($dirName.$filename,&#39;a&#39;);
    fwrite($res,$file);
    fclose($res);
    return $dirName.$filename;
}

加入采集代码，由于这里加入采集代码不让提交，直接上图；

我们以亚马逊的一个产品页为例：输入某个产品链接：

看看采集结果如下图，这里只展示内容，加入数据库就比较简单了，有时间再介绍自动进入下级链接或自动翻页的采集。

以上是使用file_get_contents和curl写采集的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

您如何防止与会议有关的跨站点脚本（XSS）攻击？Apr 23, 2025 am 12:16 AM

要保护应用免受与会话相关的XSS攻击，需采取以下措施：1.设置HttpOnly和Secure标志保护会话cookie。2.对所有用户输入进行输出编码。3.实施内容安全策略(CSP)限制脚本来源。通过这些策略，可以有效防护会话相关的XSS攻击，确保用户数据安全。

您如何优化PHP会话性能？Apr 23, 2025 am 12:13 AM

优化PHP会话性能的方法包括：1.延迟会话启动，2.使用数据库存储会话，3.压缩会话数据，4.管理会话生命周期，5.实现会话共享。这些策略能显着提升应用在高并发环境下的效率。

什么是session.gc_maxlifetime配置设置？Apr 23, 2025 am 12:10 AM

thesession.gc_maxlifetimesettinginphpdeterminesthelifespanofsessiondata，setInSeconds.1）它'sconfiguredinphp.iniorviaini_set（）.2）abalanceIsiseededeedeedeedeedeedeedto to to avoidperformance andununununununexpectedLogOgouts.3）

您如何在PHP中配置会话名？Apr 23, 2025 am 12:08 AM

在PHP中，可以使用session_name()函数配置会话名称。具体步骤如下：1.使用session_name()函数设置会话名称，例如session_name("my_session")。2.在设置会话名称后，调用session_start()启动会话。配置会话名称可以避免多应用间的会话数据冲突，并增强安全性，但需注意会话名称的唯一性、安全性、长度和设置时机。

您应该多久再生一次会话ID？Apr 23, 2025 am 12:03 AM

会话ID应在登录时、敏感操作前和每30分钟定期重新生成。1.登录时重新生成会话ID可防会话固定攻击。2.敏感操作前重新生成提高安全性。3.定期重新生成降低长期利用风险，但需权衡用户体验。

如何在PHP中设置会话cookie参数？Apr 22, 2025 pm 05:33 PM

在PHP中设置会话cookie参数可以通过session_set_cookie_params()函数实现。1)使用该函数设置参数，如过期时间、路径、域名、安全标志等；2)调用session_start()使参数生效；3)根据需求动态调整参数，如用户登录状态；4)注意设置secure和httponly标志以提升安全性。