首頁  >  文章  >  後端開發  >  詳細介紹PHP+JavaScript如何爬取網頁內容

詳細介紹PHP+JavaScript如何爬取網頁內容

零到壹度
零到壹度原創
2018-04-11 17:27:386029瀏覽

這篇文章跟大家分享的內容是詳細介紹PHP JavaScript如何爬取網頁內容,有著一定的參考價值,有需要的朋友可以參考一下

php js爬取網頁內容—–先看下效果

詳細介紹PHP+JavaScript如何爬取網頁內容詳細介紹PHP+JavaScript如何爬取網頁內容

#如何做到的呢?

我們一直以為只有Python才能爬取網頁內容,那是因為Python本身集合很多類別庫用來爬取網頁很方便,但是我們使用PHP js的方法一樣很方便,一樣可以拿到我們想要的網頁內容,而且也不用很繁瑣。

首先我們需要PHP來模擬請求取得整個網站的HTML

  // 允许所有域访问
  header("Access-Control-Allow-Origin: *");
  / 接收一个参数,参数名叫parm
  $parm=$_GET['mod'];
  if (empty($parm)) {  
    $url = 'http://m.80s.tw/';//詳細介紹PHP+JavaScript如何爬取網頁內容
    $html = file_get_contents($url);
}else{  
  $url = 'http://m.80s.tw/'.$parm;    
  $html = file_get_contents($url);
} 
    preg_match("/<body[^>]*?>(.*\s*?)<\/body>/is",$html,$match1);//正则匹配body里面的内容
    echo $match1[0];//输出网页
#注意:如果遇到 file_get_contents報錯請嘗試在php.ini找到extension=php_openssl.dll   開啟就OK了

然後就是前端來獲取資料進行處理了

先寫個非同步請求

$.ajax({ 
        type:&#39;get&#39;,
        url: &#39;.././admin/test.php&#39;,
        success: function(data) {
        console.log(data)//可以看到获取的HTML,很简单吧,很兴奋吧
        }
    });

取得HTML後我們就可以隨心所欲了

#怎麼來使用這些HTML呢?這是問題嗎?不是
        //首先创建一个容器
        var p = document.createElement(&#39;p&#39;);        
        // 把整个html的字符串存到这个p节点里
        p.innerHTML = data;        
        //然后就可以对p一顿检查了
        //比如获取类list_mov_title下所有的a标签
        var list = p.querySelectorAll(&#39;.list_mov_title a&#39;);        
        //赶紧打印出来看一下
        console.log(list)        
        //想要的东西都在吧
        //然后就把想要的东西往自己的页面里面塞吧

一個爬取網頁內容的教學就這樣結束了,如果你豁然開朗了就轉發一下吧,不明白的就留言吧

以上是詳細介紹PHP+JavaScript如何爬取網頁內容的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn