Heim >Backend-Entwicklung >PHP-Tutorial >Detaillierte Einführung, wie PHP+JavaScript Webinhalte crawlt
Der Inhalt dieses Artikels ist eine detaillierte Einführung in die Art und Weise, wie PHP+JavaScript Webinhalte crawlt. Er hat einen gewissen Referenzwert.
Wir haben immer gedacht, dass nur Python Webinhalte crawlen kann. Das liegt daran, dass Python selbst über viele Bibliotheken verfügt, die zum Crawlen von Webseiten sehr praktisch sind Wir erhalten die Webinhalte, die wir wollen, und es muss nicht kompliziert sein.
// 允许所有域访问 header("Access-Control-Allow-Origin: *"); / 接收一个参数,参数名叫parm $parm=$_GET['mod']; if (empty($parm)) { $url = 'http://m.80s.tw/';//Detaillierte Einführung, wie PHP+JavaScript Webinhalte crawlt $html = file_get_contents($url); }else{ $url = 'http://m.80s.tw/'.$parm; $html = file_get_contents($url); } preg_match("/<body[^>]*?>(.*\s*?)<\/body>/is",$html,$match1);//正则匹配body里面的内容 echo $match1[0];//输出网页
Hinweis: Wenn ein file_get_contents-Fehler auftritt, versuchen Sie bitte, extension=php_openssl zu finden .dll in php.ini Es ist in Ordnung, es zu aktivieren
Schreiben Sie zuerst eine asynchrone Anfrage
$.ajax({ type:'get', url: '.././admin/test.php', success: function(data) { console.log(data)//可以看到获取的HTML,很简单吧,很兴奋吧 } });
Wie verwendet man diesen HTML-Code? Ist das ein Problem? Nein
//首先创建一个容器 var p = document.createElement('p'); // 把整个html的字符串存到这个p节点里 p.innerHTML = data; //然后就可以对p一顿检查了 //比如获取类list_mov_title下所有的a标签 var list = p.querySelectorAll('.list_mov_title a'); //赶紧打印出来看一下 console.log(list) //想要的东西都在吧 //然后就把想要的东西往自己的页面里面塞吧
Dies ist das Ende eines Tutorials zum Crawlen von Webinhalten. Wenn Sie es nicht verstehen, hinterlassen Sie bitte eine Nachricht
Das obige ist der detaillierte Inhalt vonDetaillierte Einführung, wie PHP+JavaScript Webinhalte crawlt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!