Heim >Backend-Entwicklung >PHP-Tutorial >Detaillierte Einführung, wie PHP+JavaScript Webinhalte crawlt

Detaillierte Einführung, wie PHP+JavaScript Webinhalte crawlt

零到壹度
零到壹度Original
2018-04-11 17:27:386087Durchsuche

Der Inhalt dieses Artikels ist eine detaillierte Einführung in die Art und Weise, wie PHP+JavaScript Webinhalte crawlt. Er hat einen gewissen Referenzwert.

php +js crawlt Webinhalte – Schauen wir uns zunächst den Effekt an

Detaillierte Einführung, wie PHP+JavaScript Webinhalte crawltDetaillierte Einführung, wie PHP+JavaScript Webinhalte crawlt

Wie geht das?

Wir haben immer gedacht, dass nur Python Webinhalte crawlen kann. Das liegt daran, dass Python selbst über viele Bibliotheken verfügt, die zum Crawlen von Webseiten sehr praktisch sind Wir erhalten die Webinhalte, die wir wollen, und es muss nicht kompliziert sein.

Zuerst benötigen wir PHP, um eine Anfrage zu simulieren, um den HTML-Code der gesamten Website abzurufen

  // 允许所有域访问
  header("Access-Control-Allow-Origin: *");
  / 接收一个参数,参数名叫parm
  $parm=$_GET['mod'];
  if (empty($parm)) {  
    $url = 'http://m.80s.tw/';//Detaillierte Einführung, wie PHP+JavaScript Webinhalte crawlt
    $html = file_get_contents($url);
}else{  
  $url = 'http://m.80s.tw/'.$parm;    
  $html = file_get_contents($url);
} 
    preg_match("/<body[^>]*?>(.*\s*?)<\/body>/is",$html,$match1);//正则匹配body里面的内容
    echo $match1[0];//输出网页
Hinweis: Wenn ein file_get_contents-Fehler auftritt, versuchen Sie bitte, extension=php_openssl zu finden .dll in php.ini Es ist in Ordnung, es zu aktivieren

Dann erhält das Frontend die Daten zur Verarbeitung

Schreiben Sie zuerst eine asynchrone Anfrage

$.ajax({ 
        type:&#39;get&#39;,
        url: &#39;.././admin/test.php&#39;,
        success: function(data) {
        console.log(data)//可以看到获取的HTML,很简单吧,很兴奋吧
        }
    });

Nachdem wir den HTML-Code erhalten haben, können wir tun, was wir wollen.

Wie verwendet man diesen HTML-Code? Ist das ein Problem? Nein
        //首先创建一个容器
        var p = document.createElement(&#39;p&#39;);        
        // 把整个html的字符串存到这个p节点里
        p.innerHTML = data;        
        //然后就可以对p一顿检查了
        //比如获取类list_mov_title下所有的a标签
        var list = p.querySelectorAll(&#39;.list_mov_title a&#39;);        
        //赶紧打印出来看一下
        console.log(list)        
        //想要的东西都在吧
        //然后就把想要的东西往自己的页面里面塞吧

Dies ist das Ende eines Tutorials zum Crawlen von Webinhalten. Wenn Sie es nicht verstehen, hinterlassen Sie bitte eine Nachricht

Das obige ist der detaillierte Inhalt vonDetaillierte Einführung, wie PHP+JavaScript Webinhalte crawlt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn