php通过curl单独抓取网页可以，抓取多个会出错-php教程-PHP中文網

首頁

後端開發

php教程

php通过curl单独抓取网页可以，抓取多个会出错

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:27 PM

curlphp

使用curl单独抓取http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&amp;amp;amp;ArticleId=5722可行，但是如果抓取相同类型的一系列网站就会出错，将他们放在数组
$linkList中，分别是http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&amp;amp;amp;ArticleId=5722, http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&amp;amp;amp;ArticleId=5325等等。
php通过curl单独抓取网页可以，抓取多个会出错

function getJobsHubuNotice()

{
            
    $curl = curl_init('http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81');
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
    $result = curl_exec($curl);
            //内容处理
    $result = strip_tags($result,'&amp;amp;amp;amp;lt;a&amp;amp;amp;amp;gt;');
    $result = stristr($result, 'nbsp当前位置：');
    $result = str_replace('nbsp当前位置：', '', $result);
    $result = stristr($result, '当前1/2页',true);
    $result = stristr($result, '通知公告');
    $result = str_replace('通知公告&amp;amp;amp;amp;lt;/a&amp;amp;amp;amp;gt;', '', $result);
    preg_match_all('/(?&amp;amp;amp;amp;lt;=href=\&amp;amp;amp;amp;quot;).*?(?=\&amp;amp;amp;amp;quot;)/', $result, $arrayTemp);
    $linkList = $arrayTemp[0];
    preg_match_all('/(?&amp;amp;amp;amp;lt;=title=\&amp;amp;amp;amp;quot;).*?(?=\&amp;amp;amp;amp;quot;)/', $result, $arrayTemp);
    $titleList = $arrayTemp[0];
    preg_match_all('/(?&amp;amp;amp;amp;lt;=\[)\d*\-\d*(?=\])/', $result, $arrayTemp);
    $dateList_temp = $arrayTemp[0];
    $dateList = array();
    $linkList = str_replace('Detail.aspx', 'http://jobs.hubu.edu.cn/Detail.aspx', $linkList);
    foreach ($dateList_temp as $key =&amp;amp;amp;amp;gt; $value) {
        $dateList[$key] = date('Y').'-'.$value;
    }
    $JobsHubu = array();
            //分别获得网页上的每条通知的标题，链接，时间
    $JobsHubu[0] = $dateList;
    $JobsHubu[1] = $titleList;
    $JobsHubu[2] = $linkList;
    return $JobsHubu;
}
//
function makePage($link)
{

        .......   //省略部分代码
       else if(starts($link,'jobs.hubu'))
      {
        echo &amp;amp;amp;amp;quot;进入makePage函数&amp;amp;amp;amp;quot;;
        echo &amp;amp;amp;amp;quot;处理网页&amp;amp;amp;amp;quot;.$link.'&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;';
        $curl = curl_init();
        curl_setopt($curl, CURLOPT_URL , $link);
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
        $result = curl_exec($curl);
        //echo $result;
        //echo &amp;amp;amp;amp;quot;result结束&amp;amp;amp;amp;quot;;
        $result = strip_tags($result);
        $result = stristr($result, ' &amp;amp;amp;amp;gt; 通知公告');
        $result = str_replace(' &amp;amp;amp;amp;gt; 通知公告', '', $result);
        $result = stristr($result, '$(document).ready',true);
        $result = trim($result);
        $result = str_replace(&amp;amp;amp;amp;quot;\r\n&amp;amp;amp;amp;quot;, '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;', $result);
        $result = preg_replace('/(\&amp;amp;amp;amp;lt;br\/\&amp;amp;amp;amp;gt;){1,}/', '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;', $result);
        echo $result;
        echo '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;';
        echo &amp;amp;amp;amp;quot;退出makePage函数&amp;amp;amp;amp;quot;;
        return $result;
       }
}

先用getJobsHubuNotice()函数获取新闻的链接，标题，日期，然后用makePage()函数获取内容
php通过curl单独抓取网页可以，抓取多个会出错

这是在makePage内部打印链接的结果，链接用浏览器打开没有问题.

回复内容：

function getJobsHubuNotice()

{
            
    $curl = curl_init('http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81');
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
    $result = curl_exec($curl);
            //内容处理
    $result = strip_tags($result,'&amp;amp;amp;amp;lt;a&amp;amp;amp;amp;gt;');
    $result = stristr($result, 'nbsp当前位置：');
    $result = str_replace('nbsp当前位置：', '', $result);
    $result = stristr($result, '当前1/2页',true);
    $result = stristr($result, '通知公告');
    $result = str_replace('通知公告&amp;amp;amp;amp;lt;/a&amp;amp;amp;amp;gt;', '', $result);
    preg_match_all('/(?&amp;amp;amp;amp;lt;=href=\&amp;amp;amp;amp;quot;).*?(?=\&amp;amp;amp;amp;quot;)/', $result, $arrayTemp);
    $linkList = $arrayTemp[0];
    preg_match_all('/(?&amp;amp;amp;amp;lt;=title=\&amp;amp;amp;amp;quot;).*?(?=\&amp;amp;amp;amp;quot;)/', $result, $arrayTemp);
    $titleList = $arrayTemp[0];
    preg_match_all('/(?&amp;amp;amp;amp;lt;=\[)\d*\-\d*(?=\])/', $result, $arrayTemp);
    $dateList_temp = $arrayTemp[0];
    $dateList = array();
    $linkList = str_replace('Detail.aspx', 'http://jobs.hubu.edu.cn/Detail.aspx', $linkList);
    foreach ($dateList_temp as $key =&amp;amp;amp;amp;gt; $value) {
        $dateList[$key] = date('Y').'-'.$value;
    }
    $JobsHubu = array();
            //分别获得网页上的每条通知的标题，链接，时间
    $JobsHubu[0] = $dateList;
    $JobsHubu[1] = $titleList;
    $JobsHubu[2] = $linkList;
    return $JobsHubu;
}
//
function makePage($link)
{

        .......   //省略部分代码
       else if(starts($link,'jobs.hubu'))
      {
        echo &amp;amp;amp;amp;quot;进入makePage函数&amp;amp;amp;amp;quot;;
        echo &amp;amp;amp;amp;quot;处理网页&amp;amp;amp;amp;quot;.$link.'&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;';
        $curl = curl_init();
        curl_setopt($curl, CURLOPT_URL , $link);
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
        $result = curl_exec($curl);
        //echo $result;
        //echo &amp;amp;amp;amp;quot;result结束&amp;amp;amp;amp;quot;;
        $result = strip_tags($result);
        $result = stristr($result, ' &amp;amp;amp;amp;gt; 通知公告');
        $result = str_replace(' &amp;amp;amp;amp;gt; 通知公告', '', $result);
        $result = stristr($result, '$(document).ready',true);
        $result = trim($result);
        $result = str_replace(&amp;amp;amp;amp;quot;\r\n&amp;amp;amp;amp;quot;, '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;', $result);
        $result = preg_replace('/(\&amp;amp;amp;amp;lt;br\/\&amp;amp;amp;amp;gt;){1,}/', '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;', $result);
        echo $result;
        echo '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;';
        echo &amp;amp;amp;amp;quot;退出makePage函数&amp;amp;amp;amp;quot;;
        return $result;
       }
}

先用getJobsHubuNotice()函数获取新闻的链接，标题，日期，然后用makePage()函数获取内容
php通过curl单独抓取网页可以，抓取多个会出错

这是在makePage内部打印链接的结果，链接用浏览器打开没有问题.

你的代码呢???

你的PHP代码并没有出错, 初步怀疑是你请求时传递的 url 不正确, 见下图:

php通过curl单独抓取网页可以，抓取多个会出错

你代码中输出的那个错误, 其实是你获取到的网页上输出的内容.

再次更新,我想我知道你请求出错的原因是什么了:
你从网页中获取到的URL地址为: Detail.aspx?ArticleChannelId=81&amp;amp;amp;amp;ArticleId=2777,

php通过curl单独抓取网页可以，抓取多个会出错

其中中 &amp;amp;amp; 这个字符为 &amp;amp;amp; 的HTML实体符, 在你输出的时候(即你的截图中)它显示的是&amp;amp;amp;, 而当你去真正请求的时候, 是使用的下面这样的东东:

php通过curl单独抓取网页可以，抓取多个会出错

你只需要把它进行还原或者简单的, 把URL中的 &amp;amp;amp; 替换为 &amp;amp;amp; 然后再去请求就ok了.

再次更新:

&amp;amp;amp;amp;lt;?php
class HttpClient{
    private $ch;

    function __construct($cookie_jar){
        $this-&amp;amp;amp;amp;gt;ch = curl_init();
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; Trident/4.0; QQDownload 685; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; .NET4.0E)');//UA
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_TIMEOUT, 40);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_FOLLOWLOCATION, TRUE);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_AUTOREFERER, true);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_RETURNTRANSFER, TRUE);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_ENCODING, 'UTF-8');
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_COOKIEJAR, $cookie_jar);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_COOKIEFILE, $cookie_jar);
    }

    function __destruct(){
        curl_close($this-&amp;amp;amp;amp;gt;ch);
    }

    final public function setReferer($ref=''){
        if($ref != ''){
            curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_REFERER, $ref);
        }
    }

    final public function Get($url, $header=false, $nobody=false){
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_POST, false);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_URL, $url);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_HEADER, $header);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_NOBODY, $nobody);
        return curl_exec($this-&amp;amp;amp;amp;gt;ch);
    }

    final public function Post($url, $data=array(), $header=false, $nobody=false){
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_URL, $url);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_HEADER, $header);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_NOBODY, $nobody);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_POST, true);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_POSTFIELDS, http_build_query($data));
        return curl_exec($this-&amp;amp;amp;amp;gt;ch);
    }
}


const ROOT_URL = 'http://jobs.hubu.edu.cn/';

$home = 'http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81';


$http = new HttpClient('cookie.txt');

//获取列表页
$html = $http-&amp;amp;amp;amp;gt;Get($home);

//用正则匹配出来 当前页 所有的 文章
preg_match_all('/&amp;amp;amp;amp;lt;td class=&amp;amp;amp;amp;quot;newslist&amp;amp;amp;amp;quot; align=&amp;amp;amp;amp;quot;left&amp;amp;amp;amp;quot;&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;a id=&amp;amp;amp;amp;quot;.+?&amp;amp;amp;amp;quot; title=&amp;amp;amp;amp;quot;(.+?)&amp;amp;amp;amp;quot; href=&amp;amp;amp;amp;quot;(.+?)&amp;amp;amp;amp;quot; target=&amp;amp;amp;amp;quot;_self&amp;amp;amp;amp;quot;&amp;amp;amp;amp;gt;.+?&amp;amp;amp;amp;lt;\/a&amp;amp;amp;amp;gt;\s+\[(\d+\-\d+)\]/', $html, $links);

array_shift($links);//删除掉第一个

$size = count($links[0]);

for($i=0; $i&amp;amp;amp;amp;lt;$size; $i++){//有匹配到结果
    $title = $links[0][$i];
    $url = htmlspecialchars_decode($links[1][$i]);//还原URL中的 HTML 实体符为原始的字符
    $date = date('Y') . '-' . $links[2][$i];

    echo $date, &amp;amp;amp;amp;quot;\t&amp;amp;amp;amp;quot;, $title, &amp;amp;amp;amp;quot;\t&amp;amp;amp;amp;quot;, $url, &amp;amp;amp;amp;quot;\n&amp;amp;amp;amp;quot;;
    //makePage($url);
}


function makePage($url){
    global $http;//使用全局变量中的那个 HttpClient 实例

    $html = $http-&amp;amp;amp;amp;gt;Get(ROOT_URL . $url);//拼接完整的URL

    //$html 就是页面的内容
}

因为无聊帮你更新一下代码, 上面为我自己根据你之前的代码编写而成, 下图为运行结果(makePage里面加你自己的代码):

php通过curl单独抓取网页可以，抓取多个会出错

makePage($link)
$link有值么，类型对么？

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

PHP行動：現實世界中的示例和應用程序Apr 14, 2025 am 12:19 AM

PHP在電子商務、內容管理系統和API開發中廣泛應用。 1)電子商務：用於購物車功能和支付處理。 2)內容管理系統：用於動態內容生成和用戶管理。 3)API開發：用於RESTfulAPI開發和API安全性。通過性能優化和最佳實踐，PHP應用的效率和可維護性得以提升。

PHP：輕鬆創建交互式Web內容Apr 14, 2025 am 12:15 AM

PHP可以輕鬆創建互動網頁內容。 1)通過嵌入HTML動態生成內容，根據用戶輸入或數據庫數據實時展示。 2)處理表單提交並生成動態輸出，確保使用htmlspecialchars防XSS。 3)結合MySQL創建用戶註冊系統，使用password_hash和預處理語句增強安全性。掌握這些技巧將提升Web開發效率。

PHP和Python：比較兩種流行的編程語言Apr 14, 2025 am 12:13 AM

PHP和Python各有優勢，選擇依據項目需求。 1.PHP適合web開發，尤其快速開發和維護網站。 2.Python適用於數據科學、機器學習和人工智能，語法簡潔，適合初學者。

PHP的持久相關性：它還活著嗎？Apr 14, 2025 am 12:12 AM

PHP仍然具有活力，其在現代編程領域中依然佔據重要地位。 1)PHP的簡單易學和強大社區支持使其在Web開發中廣泛應用；2)其靈活性和穩定性使其在處理Web表單、數據庫操作和文件處理等方面表現出色；3)PHP不斷進化和優化，適用於初學者和經驗豐富的開發者。

PHP的當前狀態：查看網絡開發趨勢Apr 13, 2025 am 12:20 AM

PHP在現代Web開發中仍然重要，尤其在內容管理和電子商務平台。 1)PHP擁有豐富的生態系統和強大框架支持，如Laravel和Symfony。 2)性能優化可通過OPcache和Nginx實現。 3)PHP8.0引入JIT編譯器，提升性能。 4)雲原生應用通過Docker和Kubernetes部署，提高靈活性和可擴展性。

PHP與其他語言：比較Apr 13, 2025 am 12:19 AM

PHP適合web開發，特別是在快速開發和處理動態內容方面表現出色，但不擅長數據科學和企業級應用。與Python相比，PHP在web開發中更具優勢，但在數據科學領域不如Python；與Java相比，PHP在企業級應用中表現較差，但在web開發中更靈活；與JavaScript相比，PHP在後端開發中更簡潔，但在前端開發中不如JavaScript。

PHP與Python：核心功能Apr 13, 2025 am 12:16 AM

PHP和Python各有優勢，適合不同場景。 1.PHP適用於web開發，提供內置web服務器和豐富函數庫。 2.Python適合數據科學和機器學習，語法簡潔且有強大標準庫。選擇時應根據項目需求決定。

PHP：網絡開發的關鍵語言Apr 13, 2025 am 12:08 AM

PHP是一種廣泛應用於服務器端的腳本語言，特別適合web開發。 1.PHP可以嵌入HTML，處理HTTP請求和響應，支持多種數據庫。 2.PHP用於生成動態網頁內容，處理表單數據，訪問數據庫等，具有強大的社區支持和開源資源。 3.PHP是解釋型語言，執行過程包括詞法分析、語法分析、編譯和執行。 4.PHP可以與MySQL結合用於用戶註冊系統等高級應用。 5.調試PHP時，可使用error_reporting()和var_dump()等函數。 6.優化PHP代碼可通過緩存機制、優化數據庫查詢和使用內置函數。 7

See all articles