ホームページ >バックエンド開発 >PHPの問題 >php はデータ収集に何を使用しますか?

php はデータ収集に何を使用しますか?

(*-*)浩
(*-*)浩オリジナル
2019-09-18 11:55:482707ブラウズ

コレクションとは何ですか?

は、PHP プログラムを使用して、他の Web サイトから情報を独自のデータベースと Web サイトに取り込むことです。

php はデータ収集に何を使用しますか?

PHP 生成および収集技術:

下部ソケットから高レベルのファイル操作関数まで 3 つのメソッドがあります。コレクションを実装します。

1. ソケット テクノロジを使用して収集します: (推奨される学習: PHP プログラミングの入門から習熟まで )

ソケット コレクションは最下位レベルです。長い接続が確立されるだけで、その後、リクエストを送信するために http プロトコル文字列を自分で構築する必要があります。

たとえば、Youku ページのコンテンツを取得したい場合は、ソケットを使用して次のように記述します。

<?php  
//连接,$error错误编号,$errstr错误的字符串,30s是连接超时时间  
$fp=fsockopen("www.youku.com",80,$errno,$errstr,30);  
if(!$fp) die("连接失败".$errstr);  
   
//构造http协议字符串,因为socket编程是最底层的,它还没有使用http协议  
$http="GET /?spm=a2hww.20023042.topNav.5~1~3!2~A HTTP/1.1\r\n";   //  \r\n表示前面的是一个命令  
$http.="Host:www.youku.com\r\n";  //请求的主机  
$http.="Connection:close\r\n\r\n";   // 连接关闭,最后一行要两个\r\n  
   
//发送这个字符串到服务器  
fwrite($fp,$http,strlen($http));  
//接收服务器返回的数据  
$data=&#39;&#39;;  
while (!feof($fp)) {  
$data.=fread($fp,4096);  //fread读取返回的数据,一次读取4096字节  
}  
//关闭连接  
fclose($fp);  
var_dump($data);  
?>

返されたヘッダー情報とソース コードを含む出力結果は次のとおりです。ページの:

php はデータ収集に何を使用しますか?

2.curl_a 関数セットを使用します

curl は HTTP プロトコルを多くの関数にカプセル化します。対応するパラメータを渡すことで、書き込み時間を短縮します HTTP プロトコル文字列の難しさ。

前提条件: Curl 拡張機能が php.ini で有効になっている必要があります。

function getHTTPS($url) {
  $ch = curl_init();
  curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
  curl_setopt($ch, CURLOPT_HEADER, false);
  curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_REFERER, $url);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
  $result = curl_exec($ch);
  curl_close($ch);
  return $result;
}
var_dump(getHTTPS($url));

ページのソース コードのみを含む出力結果は次のとおりです:

php はデータ収集に何を使用しますか?

3. file_get_contents を直接使用します (トップ レベル)。 )

前提条件: ネットワークを開くことを許可する URL アドレスを php.ini に設定します。

php はデータ収集に何を使用しますか?

//使用file_get_contents()  
$data=file_get_contents("http://www.youku.com");  
var_dump($data);

php はデータ収集に何を使用しますか?

以上がphp はデータ収集に何を使用しますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。