Heim >Backend-Entwicklung >PHP-Tutorial >Die Lösung zum Crawlen verstümmelter Webseiten mit Curl und file_get_contents

Die Lösung zum Crawlen verstümmelter Webseiten mit Curl und file_get_contents

巴扎黑
巴扎黑Original
2016-11-09 11:23:401299Durchsuche

Als ich heute die Funktion „curl_init“ zum Crawlen der Webseiten von Sohu verwendete, stellte ich fest, dass die gesammelten Webseiten verstümmelt waren. Nach der Analyse stellte ich fest, dass der Server die GZIP-Komprimierungsfunktion aktiviert hatte. Fügen Sie einfach mehrere Optionen CURLOPT_ENCODING zur Funktion curl_setopt hinzu, um gzip zu analysieren, und Sie können es korrekt dekodieren.


Auch wenn die erfasste Webseite in GBK codiert ist, das Skript jedoch tatsächlich in utf-8 codiert ist, muss die erfasste Webseite mit der Funktion mb_convert_encoding konvertiert werden.

<?php
    $tmp = sys_get_temp_dir();
    $cookieDump = tempnam($tmp, &#39;cookies&#39;);
    $url = &#39;http://tv.sohu.com&#39;;
    $ch = curl_init();
    curl_setopt ($ch, CURLOPT_URL, $url);
    curl_setopt ($ch, CURLOPT_HEADER, 1);// 显示返回的Header区域内容
    curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转
    curl_setopt ($ch, CURLOPT_TIMEOUT, 10);// 设置超时限制
    curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回
    curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT,10);// 链接超时限制
    curl_setopt ($ch, CURLOPT_HTTPHEADER,array(&#39;Accept-Encoding: gzip, deflate&#39;));//设置 http 头信息
    curl_setopt ($ch, CURLOPT_ENCODING, &#39;gzip,deflate&#39;);//添加 gzip 解码的选项,即使网页没启用 gzip 也没关系
    curl_setopt ($ch, CURLOPT_COOKIEJAR, $cookieDump);  // 存放Cookie信息的文件名称
    $content = curl_exec($ch);
    // 把抓取的网页由 GBK 转换成 UTF-8 
    $content = mb_convert_encoding($content,"UTF-8","GBK");
?>
<?php
    $url = &#39;http://tv.sohu.com&#39;;
    // 只要添加 compress.zlib 选项,即使服务器启用了gzip 压缩功能,就能够解码了
    $content = file_get_contents("compress.zlib://".$url);
    // 把抓取的网页由 GBK 转换成 UTF-8 
    $content = mb_convert_encoding($content,"UTF-8","GBK");
?>


Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn