首頁  >  文章  >  後端開發  >  php使用什麼做資料擷取

php使用什麼做資料擷取

(*-*)浩
(*-*)浩原創
2019-09-18 11:55:482565瀏覽

什麼叫採集?

就是使用PHP程序,把其他網站中的資訊抓取到我們自己的資料庫中、網站中。

php使用什麼做資料擷取

PHP製作採集的技術:

#從底層的socket到高層的檔案操作函數,一共有3種方法可以實現採集。

1. 使用socket技術收集:(建議學習:PHP程式設計從入門到精通

socket採集是最底層的,它只是建立了一個長連接,然後我們要自己建構http協議字串去發送請求。

例如要想取得優酷頁面的內容,用socket寫如下:

<?php  
//连接,$error错误编号,$errstr错误的字符串,30s是连接超时时间  
$fp=fsockopen("www.youku.com",80,$errno,$errstr,30);  
if(!$fp) die("连接失败".$errstr);  
   
//构造http协议字符串,因为socket编程是最底层的,它还没有使用http协议  
$http="GET /?spm=a2hww.20023042.topNav.5~1~3!2~A HTTP/1.1\r\n";   //  \r\n表示前面的是一个命令  
$http.="Host:www.youku.com\r\n";  //请求的主机  
$http.="Connection:close\r\n\r\n";   // 连接关闭,最后一行要两个\r\n  
   
//发送这个字符串到服务器  
fwrite($fp,$http,strlen($http));  
//接收服务器返回的数据  
$data=&#39;&#39;;  
while (!feof($fp)) {  
$data.=fread($fp,4096);  //fread读取返回的数据,一次读取4096字节  
}  
//关闭连接  
fclose($fp);  
var_dump($data);  
?>

列印出的結果如下,包含了傳回的頭資訊及頁面的原始碼:

php使用什麼做資料擷取

2. 使用curl_一套函數

curl把HTTP協定都封裝成了很多函數,直接傳對應參數即可,降低了寫HTTP協定字串的難度。

前提:在php.ini中要開啟curl擴充。

function getHTTPS($url) {
  $ch = curl_init();
  curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
  curl_setopt($ch, CURLOPT_HEADER, false);
  curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_REFERER, $url);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
  $result = curl_exec($ch);
  curl_close($ch);
  return $result;
}
var_dump(getHTTPS($url));

列印出來的結果如下,只包含頁面的原始碼:

php使用什麼做資料擷取

3. 直接使用file_get_contents(最頂層的)

前提:在php.ini中設定允許開啟一個網路的url位址。

php使用什麼做資料擷取

//使用file_get_contents()  
$data=file_get_contents("http://www.youku.com");  
var_dump($data);

php使用什麼做資料擷取

#

以上是php使用什麼做資料擷取的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn