首页  >  问答  >  正文

curl爬取网页是数据

如果url链接给的是https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_4480296238548479181%22%7D&n_type=0&p_from=1

的链接怎么爬取网页信息

phpcn_u68041phpcn_u680412531 天前1187

全部回复(5)我来回复

  • phpcn_u68041

    phpcn_u680412017-12-07 16:41:30

    用curl来爬取网站注意https

    回复
    0
  • ringa_lee

    ringa_lee2017-12-07 14:20:17

    是的,1楼的说的很完整,获取页面信息通常用的也就这两种方法,file_get_contents和通过curl请求

    回复
    0
  • NULL

    NULL2017-12-07 13:23:13

    可以用file_get_contents    或者是curl 代码:

    function getHTTPS($url) {
      $ch = curl_init();
      curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
      curl_setopt($ch, CURLOPT_HEADER, false);
      curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
      curl_setopt($ch, CURLOPT_URL, $url);
      curl_setopt($ch, CURLOPT_REFERER, $url);
      curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
      $result = curl_exec($ch);
      curl_close($ch);
      return $result;
    }


    回复
    2
  • phpcn_u68041

    curl默认安装的对https协议不支持还需要加上这个是吗 curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false ); curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false );

    phpcn_u68041 · 2017-12-07 16:44:56
    NULL

    我对curl也不是很了解,这是我在网上抄的一段代码,测试了可以爬HTTPS的网页数据就发给你了

    NULL · 2017-12-12 10:18:17
  • 取消回复