php通过curl单独抓取网页可以，抓取多个会出错-tutorial php-php.cn

Rumah

pembangunan bahagian belakang

tutorial php

php通过curl单独抓取网页可以，抓取多个会出错

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:27 PM

curlphp

使用curl单独抓取http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&amp;amp;amp;ArticleId=5722可行，但是如果抓取相同类型的一系列网站就会出错，将他们放在数组
$linkList中，分别是http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&amp;amp;amp;ArticleId=5722, http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&amp;amp;amp;ArticleId=5325等等。
php通过curl单独抓取网页可以，抓取多个会出错

function getJobsHubuNotice()

{
            
    $curl = curl_init('http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81');
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
    $result = curl_exec($curl);
            //内容处理
    $result = strip_tags($result,'&amp;amp;amp;amp;lt;a&amp;amp;amp;amp;gt;');
    $result = stristr($result, 'nbsp当前位置：');
    $result = str_replace('nbsp当前位置：', '', $result);
    $result = stristr($result, '当前1/2页',true);
    $result = stristr($result, '通知公告');
    $result = str_replace('通知公告&amp;amp;amp;amp;lt;/a&amp;amp;amp;amp;gt;', '', $result);
    preg_match_all('/(?&amp;amp;amp;amp;lt;=href=\&amp;amp;amp;amp;quot;).*?(?=\&amp;amp;amp;amp;quot;)/', $result, $arrayTemp);
    $linkList = $arrayTemp[0];
    preg_match_all('/(?&amp;amp;amp;amp;lt;=title=\&amp;amp;amp;amp;quot;).*?(?=\&amp;amp;amp;amp;quot;)/', $result, $arrayTemp);
    $titleList = $arrayTemp[0];
    preg_match_all('/(?&amp;amp;amp;amp;lt;=\[)\d*\-\d*(?=\])/', $result, $arrayTemp);
    $dateList_temp = $arrayTemp[0];
    $dateList = array();
    $linkList = str_replace('Detail.aspx', 'http://jobs.hubu.edu.cn/Detail.aspx', $linkList);
    foreach ($dateList_temp as $key =&amp;amp;amp;amp;gt; $value) {
        $dateList[$key] = date('Y').'-'.$value;
    }
    $JobsHubu = array();
            //分别获得网页上的每条通知的标题，链接，时间
    $JobsHubu[0] = $dateList;
    $JobsHubu[1] = $titleList;
    $JobsHubu[2] = $linkList;
    return $JobsHubu;
}
//
function makePage($link)
{

        .......   //省略部分代码
       else if(starts($link,'jobs.hubu'))
      {
        echo &amp;amp;amp;amp;quot;进入makePage函数&amp;amp;amp;amp;quot;;
        echo &amp;amp;amp;amp;quot;处理网页&amp;amp;amp;amp;quot;.$link.'&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;';
        $curl = curl_init();
        curl_setopt($curl, CURLOPT_URL , $link);
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
        $result = curl_exec($curl);
        //echo $result;
        //echo &amp;amp;amp;amp;quot;result结束&amp;amp;amp;amp;quot;;
        $result = strip_tags($result);
        $result = stristr($result, ' &amp;amp;amp;amp;gt; 通知公告');
        $result = str_replace(' &amp;amp;amp;amp;gt; 通知公告', '', $result);
        $result = stristr($result, '$(document).ready',true);
        $result = trim($result);
        $result = str_replace(&amp;amp;amp;amp;quot;\r\n&amp;amp;amp;amp;quot;, '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;', $result);
        $result = preg_replace('/(\&amp;amp;amp;amp;lt;br\/\&amp;amp;amp;amp;gt;){1,}/', '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;', $result);
        echo $result;
        echo '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;';
        echo &amp;amp;amp;amp;quot;退出makePage函数&amp;amp;amp;amp;quot;;
        return $result;
       }
}

先用getJobsHubuNotice()函数获取新闻的链接，标题，日期，然后用makePage()函数获取内容
php通过curl单独抓取网页可以，抓取多个会出错

这是在makePage内部打印链接的结果，链接用浏览器打开没有问题.

回复内容：

function getJobsHubuNotice()

{
            
    $curl = curl_init('http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81');
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
    $result = curl_exec($curl);
            //内容处理
    $result = strip_tags($result,'&amp;amp;amp;amp;lt;a&amp;amp;amp;amp;gt;');
    $result = stristr($result, 'nbsp当前位置：');
    $result = str_replace('nbsp当前位置：', '', $result);
    $result = stristr($result, '当前1/2页',true);
    $result = stristr($result, '通知公告');
    $result = str_replace('通知公告&amp;amp;amp;amp;lt;/a&amp;amp;amp;amp;gt;', '', $result);
    preg_match_all('/(?&amp;amp;amp;amp;lt;=href=\&amp;amp;amp;amp;quot;).*?(?=\&amp;amp;amp;amp;quot;)/', $result, $arrayTemp);
    $linkList = $arrayTemp[0];
    preg_match_all('/(?&amp;amp;amp;amp;lt;=title=\&amp;amp;amp;amp;quot;).*?(?=\&amp;amp;amp;amp;quot;)/', $result, $arrayTemp);
    $titleList = $arrayTemp[0];
    preg_match_all('/(?&amp;amp;amp;amp;lt;=\[)\d*\-\d*(?=\])/', $result, $arrayTemp);
    $dateList_temp = $arrayTemp[0];
    $dateList = array();
    $linkList = str_replace('Detail.aspx', 'http://jobs.hubu.edu.cn/Detail.aspx', $linkList);
    foreach ($dateList_temp as $key =&amp;amp;amp;amp;gt; $value) {
        $dateList[$key] = date('Y').'-'.$value;
    }
    $JobsHubu = array();
            //分别获得网页上的每条通知的标题，链接，时间
    $JobsHubu[0] = $dateList;
    $JobsHubu[1] = $titleList;
    $JobsHubu[2] = $linkList;
    return $JobsHubu;
}
//
function makePage($link)
{

        .......   //省略部分代码
       else if(starts($link,'jobs.hubu'))
      {
        echo &amp;amp;amp;amp;quot;进入makePage函数&amp;amp;amp;amp;quot;;
        echo &amp;amp;amp;amp;quot;处理网页&amp;amp;amp;amp;quot;.$link.'&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;';
        $curl = curl_init();
        curl_setopt($curl, CURLOPT_URL , $link);
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
        $result = curl_exec($curl);
        //echo $result;
        //echo &amp;amp;amp;amp;quot;result结束&amp;amp;amp;amp;quot;;
        $result = strip_tags($result);
        $result = stristr($result, ' &amp;amp;amp;amp;gt; 通知公告');
        $result = str_replace(' &amp;amp;amp;amp;gt; 通知公告', '', $result);
        $result = stristr($result, '$(document).ready',true);
        $result = trim($result);
        $result = str_replace(&amp;amp;amp;amp;quot;\r\n&amp;amp;amp;amp;quot;, '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;', $result);
        $result = preg_replace('/(\&amp;amp;amp;amp;lt;br\/\&amp;amp;amp;amp;gt;){1,}/', '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;', $result);
        echo $result;
        echo '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;';
        echo &amp;amp;amp;amp;quot;退出makePage函数&amp;amp;amp;amp;quot;;
        return $result;
       }
}

先用getJobsHubuNotice()函数获取新闻的链接，标题，日期，然后用makePage()函数获取内容
php通过curl单独抓取网页可以，抓取多个会出错

这是在makePage内部打印链接的结果，链接用浏览器打开没有问题.

你的代码呢???

你的PHP代码并没有出错, 初步怀疑是你请求时传递的 url 不正确, 见下图:

php通过curl单独抓取网页可以，抓取多个会出错

你代码中输出的那个错误, 其实是你获取到的网页上输出的内容.

再次更新,我想我知道你请求出错的原因是什么了:
你从网页中获取到的URL地址为: Detail.aspx?ArticleChannelId=81&amp;amp;amp;amp;ArticleId=2777,

php通过curl单独抓取网页可以，抓取多个会出错

其中中 &amp;amp;amp; 这个字符为 &amp;amp;amp; 的HTML实体符, 在你输出的时候(即你的截图中)它显示的是&amp;amp;amp;, 而当你去真正请求的时候, 是使用的下面这样的东东:

php通过curl单独抓取网页可以，抓取多个会出错

你只需要把它进行还原或者简单的, 把URL中的 &amp;amp;amp; 替换为 &amp;amp;amp; 然后再去请求就ok了.

再次更新:

&amp;amp;amp;amp;lt;?php
class HttpClient{
    private $ch;

    function __construct($cookie_jar){
        $this-&amp;amp;amp;amp;gt;ch = curl_init();
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; Trident/4.0; QQDownload 685; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; .NET4.0E)');//UA
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_TIMEOUT, 40);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_FOLLOWLOCATION, TRUE);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_AUTOREFERER, true);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_RETURNTRANSFER, TRUE);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_ENCODING, 'UTF-8');
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_COOKIEJAR, $cookie_jar);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_COOKIEFILE, $cookie_jar);
    }

    function __destruct(){
        curl_close($this-&amp;amp;amp;amp;gt;ch);
    }

    final public function setReferer($ref=''){
        if($ref != ''){
            curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_REFERER, $ref);
        }
    }

    final public function Get($url, $header=false, $nobody=false){
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_POST, false);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_URL, $url);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_HEADER, $header);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_NOBODY, $nobody);
        return curl_exec($this-&amp;amp;amp;amp;gt;ch);
    }

    final public function Post($url, $data=array(), $header=false, $nobody=false){
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_URL, $url);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_HEADER, $header);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_NOBODY, $nobody);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_POST, true);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_POSTFIELDS, http_build_query($data));
        return curl_exec($this-&amp;amp;amp;amp;gt;ch);
    }
}


const ROOT_URL = 'http://jobs.hubu.edu.cn/';

$home = 'http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81';


$http = new HttpClient('cookie.txt');

//获取列表页
$html = $http-&amp;amp;amp;amp;gt;Get($home);

//用正则匹配出来 当前页 所有的 文章
preg_match_all('/&amp;amp;amp;amp;lt;td class=&amp;amp;amp;amp;quot;newslist&amp;amp;amp;amp;quot; align=&amp;amp;amp;amp;quot;left&amp;amp;amp;amp;quot;&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;a id=&amp;amp;amp;amp;quot;.+?&amp;amp;amp;amp;quot; title=&amp;amp;amp;amp;quot;(.+?)&amp;amp;amp;amp;quot; href=&amp;amp;amp;amp;quot;(.+?)&amp;amp;amp;amp;quot; target=&amp;amp;amp;amp;quot;_self&amp;amp;amp;amp;quot;&amp;amp;amp;amp;gt;.+?&amp;amp;amp;amp;lt;\/a&amp;amp;amp;amp;gt;\s+\[(\d+\-\d+)\]/', $html, $links);

array_shift($links);//删除掉第一个

$size = count($links[0]);

for($i=0; $i&amp;amp;amp;amp;lt;$size; $i++){//有匹配到结果
    $title = $links[0][$i];
    $url = htmlspecialchars_decode($links[1][$i]);//还原URL中的 HTML 实体符为原始的字符
    $date = date('Y') . '-' . $links[2][$i];

    echo $date, &amp;amp;amp;amp;quot;\t&amp;amp;amp;amp;quot;, $title, &amp;amp;amp;amp;quot;\t&amp;amp;amp;amp;quot;, $url, &amp;amp;amp;amp;quot;\n&amp;amp;amp;amp;quot;;
    //makePage($url);
}


function makePage($url){
    global $http;//使用全局变量中的那个 HttpClient 实例

    $html = $http-&amp;amp;amp;amp;gt;Get(ROOT_URL . $url);//拼接完整的URL

    //$html 就是页面的内容
}

因为无聊帮你更新一下代码, 上面为我自己根据你之前的代码编写而成, 下图为运行结果(makePage里面加你自己的代码):

php通过curl单独抓取网页可以，抓取多个会出错

makePage($link)
$link有值么，类型对么？

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Status Semasa PHP: Lihat trend pembangunan webApr 13, 2025 am 12:20 AM

PHP tetap penting dalam pembangunan web moden, terutamanya dalam pengurusan kandungan dan platform e-dagang. 1) PHP mempunyai ekosistem yang kaya dan sokongan rangka kerja yang kuat, seperti Laravel dan Symfony. 2) Pengoptimuman prestasi boleh dicapai melalui OPCACHE dan NGINX. 3) Php8.0 memperkenalkan pengkompil JIT untuk meningkatkan prestasi. 4) Aplikasi awan asli dikerahkan melalui Docker dan Kubernet untuk meningkatkan fleksibiliti dan skalabiliti.

PHP vs Bahasa Lain: PerbandinganApr 13, 2025 am 12:19 AM

PHP sesuai untuk pembangunan web, terutamanya dalam pembangunan pesat dan memproses kandungan dinamik, tetapi tidak baik pada sains data dan aplikasi peringkat perusahaan. Berbanding dengan Python, PHP mempunyai lebih banyak kelebihan dalam pembangunan web, tetapi tidak sebaik python dalam bidang sains data; Berbanding dengan Java, PHP melakukan lebih buruk dalam aplikasi peringkat perusahaan, tetapi lebih fleksibel dalam pembangunan web; Berbanding dengan JavaScript, PHP lebih ringkas dalam pembangunan back-end, tetapi tidak sebaik JavaScript dalam pembangunan front-end.

PHP vs Python: Ciri dan Fungsi TerasApr 13, 2025 am 12:16 AM

PHP dan Python masing -masing mempunyai kelebihan sendiri dan sesuai untuk senario yang berbeza. 1.PHP sesuai untuk pembangunan web dan menyediakan pelayan web terbina dalam dan perpustakaan fungsi yang kaya. 2. Python sesuai untuk sains data dan pembelajaran mesin, dengan sintaks ringkas dan perpustakaan standard yang kuat. Apabila memilih, ia harus diputuskan berdasarkan keperluan projek.

PHP: Bahasa utama untuk pembangunan webApr 13, 2025 am 12:08 AM

PHP adalah bahasa skrip yang digunakan secara meluas di sisi pelayan, terutamanya sesuai untuk pembangunan web. 1.PHP boleh membenamkan HTML, memproses permintaan dan respons HTTP, dan menyokong pelbagai pangkalan data. 2.PHP digunakan untuk menjana kandungan web dinamik, data borang proses, pangkalan data akses, dan lain -lain, dengan sokongan komuniti yang kuat dan sumber sumber terbuka. 3. PHP adalah bahasa yang ditafsirkan, dan proses pelaksanaan termasuk analisis leksikal, analisis tatabahasa, penyusunan dan pelaksanaan. 4.Php boleh digabungkan dengan MySQL untuk aplikasi lanjutan seperti sistem pendaftaran pengguna. 5. Apabila debugging php, anda boleh menggunakan fungsi seperti error_reporting () dan var_dump (). 6. Mengoptimumkan kod PHP untuk menggunakan mekanisme caching, mengoptimumkan pertanyaan pangkalan data dan menggunakan fungsi terbina dalam. 7

PHP: asas banyak laman webApr 13, 2025 am 12:07 AM

Sebab mengapa PHP adalah timbunan teknologi pilihan untuk banyak laman web termasuk kemudahan penggunaannya, sokongan komuniti yang kuat, dan penggunaan yang meluas. 1) Mudah dipelajari dan digunakan, sesuai untuk pemula. 2) Mempunyai komuniti pemaju yang besar dan sumber yang kaya. 3) Digunakan secara meluas dalam platform WordPress, Drupal dan lain -lain. 4) Mengintegrasikan dengan ketat dengan pelayan web untuk memudahkan penggunaan pembangunan.

Di luar gembar -gembur: Menilai peranan PHP hari iniApr 12, 2025 am 12:17 AM

PHP kekal sebagai alat yang kuat dan digunakan secara meluas dalam pengaturcaraan moden, terutamanya dalam bidang pembangunan web. 1) PHP mudah digunakan dan diintegrasikan dengan lancar dengan pangkalan data, dan merupakan pilihan pertama bagi banyak pemaju. 2) Ia menyokong penjanaan kandungan dinamik dan pengaturcaraan berorientasikan objek, sesuai untuk membuat dan mengekalkan laman web dengan cepat. 3) Prestasi PHP dapat ditingkatkan dengan caching dan mengoptimumkan pertanyaan pangkalan data, dan komuniti yang luas dan ekosistem yang kaya menjadikannya masih penting dalam timbunan teknologi hari ini.

Apakah rujukan yang lemah dalam PHP dan bilakah mereka berguna?Apr 12, 2025 am 12:13 AM

Dalam PHP, rujukan lemah dilaksanakan melalui kelas lemah dan tidak akan menghalang pemungut sampah daripada menebus objek. Rujukan lemah sesuai untuk senario seperti sistem caching dan pendengar acara. Harus diingat bahawa ia tidak dapat menjamin kelangsungan hidup objek dan pengumpulan sampah mungkin ditangguhkan.

Terangkan kaedah sihir __invoke dalam PHP.Apr 12, 2025 am 12:07 AM

Kaedah \ _ \ _ membolehkan objek dipanggil seperti fungsi. 1. Tentukan kaedah \ _ \ _ supaya objek boleh dipanggil. 2. Apabila menggunakan sintaks $ OBJ (...), PHP akan melaksanakan kaedah \ _ \ _ invoke. 3. Sesuai untuk senario seperti pembalakan dan kalkulator, meningkatkan fleksibiliti kod dan kebolehbacaan.

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Dreamweaver CS6

Alat pembangunan web visual

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.