Heim  >  Artikel  >  Backend-Entwicklung  >  Beispiel für einen PHP-Lern-CURL-Crawler

Beispiel für einen PHP-Lern-CURL-Crawler

*文
*文Original
2017-12-22 09:59:344324Durchsuche

Oft müssen wir einige Website-Ressourcen stapelweise crawlen, und zu diesem Zeitpunkt müssen wir einen Crawler verwenden. Die Grundlage des Crawlers besteht darin, CURL zum Simulieren von HTTP-Anfragen und zum anschließenden Parsen der Daten zu verwenden. In diesem Artikel lernen Sie PHPs CURL kennen, indem Sie einen einfachen Webcrawler schreiben.

Stellen Sie zunächst einige häufig verwendete Funktionen vor.

curl_init 初始化一个curl对话
curl_setopt 设置curl参数,即传输选项
curl_exec 执行请求
curl_close 关闭一个curl对话

Hauptsächlich die oben genannten vier

curl_errno 返回最后一次错误码,php已经定义了诸多错误枚举编码
curl_errror 返回一个保护当前会话最近一次错误的字符串


Kommen wir direkt zu den Beispielen unten


1. Laden Sie eine Webseite im Internet herunter und ersetzen Sie „Baidu“ im Inhalt durch „屌Si“ und geben Sie

<?php
/**
 * 实例描述:在网络上下载一个网页并把内容中的“百度”替换为“屌丝”之后输出
 */
$curlobj = curl_init();            // 初始化
curl_setopt($curlobj, CURLOPT_URL, "http://www.baidu.com");        // 设置访问网页的URL
curl_setopt($curlobj, CURLOPT_RETURNTRANSFER, true);           // 执行之后不直接打印出来
$output=curl_exec($curlobj);  // 执行
curl_close($curlobj);          // 关闭cURL
echo str_replace("百度","屌丝",$output);
?>


2. Fragen Sie das aktuelle Wetter in Peking ab, indem Sie WebService aufrufen

<?php
/**
 * 实例描述:通过调用WebService查询北京的当前天气
 */
$data = &#39;theCityName=北京&#39;;
$curlobj = curl_init();    
curl_setopt($curlobj, CURLOPT_URL, "http://www.webxml.com.cn/WebServices/WeatherWebService.asmx/getWeatherbyCityName");  
curl_setopt($curlobj, CURLOPT_HEADER, 0); 
curl_setopt($curlobj, CURLOPT_RETURNTRANSFER, 1);  
curl_setopt($curlobj, CURLOPT_POST, 1);  
curl_setopt($curlobj, CURLOPT_POSTFIELDS, $data);  
curl_setopt($curlobj, CURLOPT_HTTPHEADER, array("application/x-www-form-urlencoded; charset=utf-8", 
    "Content-length: ".strlen($data)
    )); 
$rtn = curl_exec($curlobj);   
if(!curl_errno($curlobj)){
    // $info = curl_getinfo($curlobj); 
    // print_r($info);
    echo $rtn;  
} else {
  echo &#39;Curl error: &#39; . curl_error($curlobj);
}
curl_close($curlobj);
?>


3. Simulieren Sie die URL, die eine Anmeldung erfordert, und erfassen Sie den Inhalt der Webseite

<?php
/**
 * 实例描述:模拟需要登录的网址并抓取网页的内容
 */
$data=array(&#39;username&#39; => &#39;promonkey&#39;, 
    &#39;password&#39; => &#39;1q2w3e&#39;,
    &#39;remember&#39;=>1);
$data=&#39;username=zjzhoufy@126.com&password=1q2w3e&remember=1&#39;;
$curlobj = curl_init();            // 初始化
curl_setopt($curlobj, CURLOPT_URL, "http://www.imooc.com/user/login");     // 设置访问网页的URL
curl_setopt($curlobj, CURLOPT_RETURNTRANSFER, true);           // 执行之后不直接打印出来
// Cookie相关设置,这部分设置需要在所有会话开始之前设置
date_default_timezone_set(&#39;PRC&#39;); // 使用Cookie时,必须先设置时区
curl_setopt($curlobj, CURLOPT_COOKIESESSION, TRUE); 
curl_setopt($curlobj, CURLOPT_HEADER, 0); 
curl_setopt($curlobj, CURLOPT_FOLLOWLOCATION, 1); // 这样能够让cURL支持页面链接跳转
curl_setopt($curlobj, CURLOPT_POST, 1);  
curl_setopt($curlobj, CURLOPT_POSTFIELDS, $data);  
curl_setopt($curlobj, CURLOPT_HTTPHEADER, array("application/x-www-form-urlencoded; charset=utf-8", 
    "Content-length: ".strlen($data)
    )); 
curl_exec($curlobj);   // 执行
curl_setopt($curlobj, CURLOPT_URL, "http://www.imooc.com/space/index");
curl_setopt($curlobj, CURLOPT_POST, 0);  
curl_setopt($curlobj, CURLOPT_HTTPHEADER, array("Content-type: text/xml"
    )); 
$output=curl_exec($curlobj);  // 执行
curl_close($curlobj);          // 关闭cURL
echo $output;
?>


4. Erfassen Sie Website-Informationen und laden Sie die persönliche Bereichsseite herunter + passen Sie den Seitenlink an. Sprungerfassung

<?php
/**
 * 实例描述:登录网站的信息抓取并下载个人空间页面
 * 自定义实现页面链接跳转抓取
 * 
 */
$data=&#39;username=demo_peter@126.com&password=123qwe&remember=1&#39;;
$curlobj = curl_init();            // 初始化
curl_setopt($curlobj, CURLOPT_URL, "http://www.imooc.com/user/login");     // 设置访问网页的URL
curl_setopt($curlobj, CURLOPT_RETURNTRANSFER, true);           // 执行之后不直接打印出来
// Cookie相关设置,这部分设置需要在所有会话开始之前设置
date_default_timezone_set(&#39;PRC&#39;); // 使用Cookie时,必须先设置时区
curl_setopt($curlobj, CURLOPT_COOKIESESSION, TRUE); 
curl_setopt($curlobj, CURLOPT_HEADER, 0); 
// 注释掉这行,因为这个设置必须关闭安全模式 以及关闭open_basedir,对服务器安全不利
//curl_setopt($curlobj, CURLOPT_FOLLOWLOCATION, 1);  
curl_setopt($curlobj, CURLOPT_POST, 1);  
curl_setopt($curlobj, CURLOPT_POSTFIELDS, $data);  
curl_setopt($curlobj, CURLOPT_HTTPHEADER, array("application/x-www-form-urlencoded; charset=utf-8", 
    "Content-length: ".strlen($data)
    )); 
curl_exec($curlobj);   // 执行
curl_setopt($curlobj, CURLOPT_URL, "http://www.imooc.com/space/index");
curl_setopt($curlobj, CURLOPT_POST, 0);  
curl_setopt($curlobj, CURLOPT_HTTPHEADER, array("Content-type: text/xml"
    )); 
$output=curl_redir_exec($curlobj);  // 执行
curl_close($curlobj);          // 关闭cURL
echo $output;
/**
 * 自定义实现页面链接跳转抓取
 */
function curl_redir_exec($ch,$debug="") 
{ 
    static $curl_loops = 0; 
    static $curl_max_loops = 20; 
    if ($curl_loops++ >= $curl_max_loops) 
    { 
        $curl_loops = 0; 
        return FALSE; 
    } 
    curl_setopt($ch, CURLOPT_HEADER, true); // 开启header才能够抓取到重定向到的新URL
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); 
    $data = curl_exec($ch); 
    // 分割返回的内容
    $h_len = curl_getinfo($ch, CURLINFO_HEADER_SIZE); 
    $header = substr($data,0,$h_len);
    $data = substr($data,$h_len - 1);
    $http_code = curl_getinfo($ch, CURLINFO_HTTP_CODE); 
    if ($http_code == 301 || $http_code == 302) { 
        $matches = array(); 
        preg_match(&#39;/Location:(.*?)\n/&#39;, $header, $matches); 
        $url = @parse_url(trim(array_pop($matches))); 
        // print_r($url); 
        if (!$url) 
        { 
            //couldn&#39;t process the url to redirect to 
            $curl_loops = 0; 
            return $data; 
        } 
        $last_url = parse_url(curl_getinfo($ch, CURLINFO_EFFECTIVE_URL)); 
        if (!isset($url[&#39;scheme&#39;])) 
            $url[&#39;scheme&#39;] = $last_url[&#39;scheme&#39;]; 
        if (!isset($url[&#39;host&#39;])) 
            $url[&#39;host&#39;] = $last_url[&#39;host&#39;]; 
        if (!isset($url[&#39;path&#39;])) 
            $url[&#39;path&#39;] = $last_url[&#39;path&#39;];
        $new_url = $url[&#39;scheme&#39;] . &#39;://&#39; . $url[&#39;host&#39;] . $url[&#39;path&#39;] . (isset($url[&#39;query&#39;])?&#39;?&#39;.$url[&#39;query&#39;]:&#39;&#39;); 
        curl_setopt($ch, CURLOPT_URL, $new_url); 
        return curl_redir_exec($ch); 
    } else { 
        $curl_loops=0; 
        return $data; 
    } 
} 
?>


Herunterladen eine Datei vom FTP-Server auf den lokalen

<?php
/**
 * 实例描述:把本地文件上传到FTP服务器上
 */
$curlobj = curl_init();    
$localfile = &#39;ftp01.php&#39;;
$fp = fopen($localfile, &#39;r&#39;);
curl_setopt($curlobj, CURLOPT_URL, "ftp://192.168.1.100/ftp01_uploaded.php");  
curl_setopt($curlobj, CURLOPT_HEADER, 0); 
curl_setopt($curlobj, CURLOPT_RETURNTRANSFER, 1);  
curl_setopt($curlobj, CURLOPT_TIMEOUT, 300); // times out after 300s
curl_setopt($curlobj, CURLOPT_USERPWD, "peter.zhou:123456");//FTP用户名:密码
//上传和下载主要是下面子三个参数不一样
curl_setopt($curlobj, CURLOPT_UPLOAD, 1);
curl_setopt($curlobj, CURLOPT_INFILE, $fp);
curl_setopt($curlobj, CURLOPT_INFILESIZE, filesize($localfile));
$rtn = curl_exec($curlobj);  
fclose($fp); 
if(!curl_errno($curlobj)){
    echo "Uploaded successfully.";  
} else {
  echo &#39;Curl error: &#39; . curl_error($curlobj);
}
curl_close($curlobj);
?>


6. Laden Sie eine HTTPS-Ressource im Netzwerk herunter

<?php
/**
 * 实例描述:下载网络上面的一个HTTPS的资源
 */
$curlobj = curl_init();            // 初始化
curl_setopt($curlobj, CURLOPT_URL, "https://ajax.aspnetcdn.com/ajax/jquery.validate/1.12.0/jquery.validate.js");       // 设置访问网页的URL
curl_setopt($curlobj, CURLOPT_RETURNTRANSFER, true);           // 执行之后不直接打印出来
// 设置HTTPS支持
date_default_timezone_set(&#39;PRC&#39;); // 使用Cookie时,必须先设置时区
curl_setopt($curlobj, CURLOPT_SSL_VERIFYPEER, 0); // 对认证证书来源的检查从证书中检查SSL加密算法是否存在
curl_setopt($curlobj, CURLOPT_SSL_VERIFYHOST, 2); // 
$output=curl_exec($curlobj);  // 执行
curl_close($curlobj);          // 关闭cURL
echo $output;
?>


Natives PHP simuliert HTTP-Anfragen

Manchmal ist es etwas verschwenderisch, Curl zu verwenden, um einfach eine HTTP-Anfrage zu simulieren. Tatsächlich kann PHP selbst diese Funktion bereits implementieren,


Es ist notwendig, POST/GET und andere Anforderungen auf der Serverseite zu simulieren, also die Simulation im PHP-Programm zu implementieren. Mit anderen Worten: Wenn Ihnen in einem PHP-Programm ein Array gegeben wird, wie können Sie dieses Array an eine andere Adresse posten/erhalten? Natürlich geht das ganz einfach mit CURL, aber was ist, wenn Sie nicht die CURL-Bibliothek verwenden? Tatsächlich ist in PHP bereits eine verwandte Funktion implementiert, und diese Funktion ist stream_context_create(), über die ich als Nächstes sprechen werde.


Zeigen Sie sich den Code direkt. Dies ist der beste Weg:

$data = array(
    &#39;foo&#39;=>&#39;bar&#39;, 
    &#39;baz&#39;=>&#39;boom&#39;, 
    &#39;site&#39;=>&#39;www.nowamagic.net&#39;, 
    &#39;name&#39;=>&#39;nowa magic&#39;); 
$data = http_build_query($data); 
//$postdata = http_build_query($data);
$options = array(
    &#39;http&#39; => array(
        &#39;method&#39; => &#39;POST&#39;,
        &#39;header&#39; => &#39;Content-type:application/x-www-form-urlencoded&#39;,
        &#39;content&#39; => $data
        //&#39;timeout&#39; => 60 * 60 // 超时时间(单位:s)
    )
);
$url = "http://www.nowamagic.net/test2.php";
$context = stream_context_create($options);
$result = file_get_contents($url, false, $context);
echo $result;
http://www.nowamagic.net/test2.php Code ist:

$data = $_POST;
echo &#39;<pre class="brush:php;toolbar:false">&#39;;
print_r( $data );
echo &#39;
';Das laufende Ergebnis ist:

Array
(
    [foo] => bar
    [baz] => boom
    [site] => www.nowamagic.net
    [name] => nowa magic
)


Einige wichtige Punkte zur Erklärung:


Das obige Programm verwendet die Funktion http_build_query(), um eine URL-Zeichenfolge zu erstellen.


stream_context_create() wird verwendet, um Kontextoptionen zum Öffnen von Dateien zu erstellen, z. B. Zugriff mit POST, Verwendung eines Proxys, Senden von Headern usw. Erstellen Sie einfach einen Stream. Geben wir ein weiteres Beispiel:

$context = stream_context_create(array( 
    &#39;http&#39; => array( 
        &#39;method&#39;  => &#39;POST&#39;, 
        &#39;header&#39;  => sprintf("Authorization: Basic %s\r\n", base64_encode($username.&#39;:&#39;.$password)). 
        "Content-type: application/x-www-form-urlencoded\r\n", 
        &#39;content&#39; => http_build_query(array(&#39;status&#39; => $message)), 
        &#39;timeout&#39; => 5, 
    ), 
)); 
$ret = file_get_contents(&#39;http://twitter.com/statuses/update.xml&#39;, false, $context);


Die von stream_context_create erstellten Kontextoptionen können sowohl für Streams als auch für Dateisysteme verwendet werden. Es ist nützlicher für Funktionen wie file_get_contents, file_put_contents und readfile, die direkt mit Dateinamen ohne Dateihandles arbeiten. Das Hinzufügen von Headern zu stream_context_create ist nur ein Teil der Funktion. Sie können auch Proxys, Timeouts usw. definieren. Dies macht die Funktion des Zugriffs auf die Bahn nicht schwächer als Curl.


stream_context_create() Funktion: Erstellen und Zurückgeben eines Textdatenstroms und Anwenden verschiedener Optionen. Kann für Timeout-Einstellungen und Proxyserver von fopen(), file_get_contents() verwendet werden. und andere Prozesse, Anforderungsmethode und spezieller Prozess zum Festlegen von Header-Informationen.


stream_context_create kann auch die Timeout-Verarbeitung von file_get_contents lösen, indem es die Timeout-Option hinzufügt:

$opts = array(
    &#39;http&#39;=>array(
    &#39;method&#39;=>"GET",
    &#39;timeout&#39;=>60,
  )
);
//创建数据流上下文
$context = stream_context_create($opts);
$html =file_get_contents(&#39;http://www.nowamagic.net&#39;, false, $context);
//fopen输出文件指针处的所有剩余数据:
//fpassthru($fp); //fclose()前使用


Das obige ist der detaillierte Inhalt vonBeispiel für einen PHP-Lern-CURL-Crawler. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn