首頁  >  文章  >  後端開發  >  php中curl、fsocket、file_get_content函數比較

php中curl、fsocket、file_get_content函數比較

WBOY
WBOY原創
2016-07-25 09:12:141192瀏覽

最近做一個網頁小偷程式的時候才發現file_get_content已經完全無法滿足需求了。 我覺得,在讀取遠端內容時,file_get_content除了使用比curl便捷以外,其他都沒有curl好

抓取遠端內容,之前一直都在用file_get_content函數,其實早就知道有curl這麼一個好東西的存在,但是看了一眼後感覺使用頗有些複雜,沒有file_get_content那麼簡單,再就是需求也不大,所以沒有學習使用curl。

php中curl和file_get_content的一些比較 主要區別: curl支援很多協議,有FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE以及LDAP,也就是說,它能做到很多file_get_content做不到的事情。 curl在php可以實現遠端取得與擷取內容;實現PHP網頁版的FTP上傳下載;實現模擬登陸;實現介面對接(API),資料傳輸;實現模擬Cookie;下載檔案斷點續傳等等,功能十分強大。 了解curl一些基本的使用後,才發現其實並不難,只不過記住裡面一些設定參數,難弄一點,但是我們記住幾個常用的就可以了。 開啟curl: 因為PHP預設是不支援curl功能的,所以如果要用curl的話,首先需要在php.ini中開啟該功能,即去掉;extension= php_curl.dll 前面的分號,然後保存後重啟apache/iis就好了。 基本語法:

  1. $my_curl = curl_init(); //初始化一個curl物件
  2. curl_setopt($my_curl, CURLOPT_URL, "http://bbs.it- home.org"); //設定你需要抓取的URL
  3. curl_setopt($my_curl,CURLOPT_RETURNTRANSFER,1); //設定是將結果儲存到字串中還是輸出到螢幕上,1表示將結果儲存到字串
  4. $str = curl_exec($curl); //執行請求
  5. echo $str; //輸出抓取的結果
  6. curl_close($curl); //關閉url請求
複製程式碼

最近需要取得別人網站上的音樂資料。用了file_get_contents函數,但是總是會遇到取得失敗的問題,儘管按照手冊中的例子設定了逾時,可多數時候不會奏效:

  1. $config['context'] = stream_context_create(array('http' => array('method' => "GET",
  2. ' timeout' => 5//這個超時時間不穩定,常常不奏效
  3. )
  4. ));
複製程式碼

這時候,看一下伺服器的連線池,會發現一堆類似的錯誤,讓我頭痛萬分: file_get_contents(http://***): failed to open stream… 現在改用了curl函式庫,寫了一個函數替換:

  1. function curl_file_get_contents($durl){
  2. $ch = curl_init();
  3. curl_setopt($chL, CURt(UR
  4. curl_setopt($ch, CURLOPT_TIMEOUT, 5);
  5. curl_setopt($ch, CURLOPT_USERAGENT, _USERAGENT_);
  6. curl_setopt($ch, CURURPT_REER_,top_*> RANSFER, 1) ;
  7. $r = curl_exec($ch);
  8. curl_close($ch);
return $r;
}

複製程式碼

    複製程式碼
  • 如此,除了真正的網路問題外,沒再出現任何問題。 這是別人做過的關於curl和file_get_contents的測試: file_get_contents抓取google.com需用秒數: 2.31319094 2.30374217 2.21512604 3.30553889 2.30124092 curl使用的時間: 0.68719101 0.64675593 0.64326 0.81983113 0.63956594 差距很大?呵呵,從我使用的經驗來說,這兩個工具不只是速度有差異,穩定性也相差很大。 建議對網路資料抓取穩定性要求比較高的朋友使用上面的 curl_file_get_contents函數,不僅穩定速度快,還能假瀏覽器欺騙目標位址!
  • 說到curl與file_get_contents的用法,之前的文章中多有提及,這裡推薦幾篇不錯的文章,大家做個參考:
  • PHP file_get_contents逾時處理的設定方法
  • php file_get_contents抓取Gzip網頁亂碼的解決方法
  • php中file_get_contents逾時問題的解決方法
  • PHP file_get_contents逾時的設定方法

php file_get_content相容性偵測的範例

php file_get_contents抓取頁面資訊的程式碼
    php file_get_contents函式抓取頁面資訊的程式碼
  1. 方法1: 用file_get_contents 以get方式取得內容
$url='http://www.domain.com/';$html = file_get_contents($url.domain.com/';
$html = file_get_contents($url );echo $html;?> 複製程式碼

方法2: 用fopen開啟url, 以get方式取得內容

  1. $fp = fopen($url, 'r');
  2. stream_get_meta_data($fp);
  3. while (!feof($fp)) {
  4. $result .= fgets($fp, 1024);
  5. }
  6. echo "url body: $result";
  7. fclose($fp);
  8. ?>
複製程式碼

方法3:用file_get_contents函數,以post方式取得url

  1. $data = array ('foo' => 'bar');
  2. $data = http_build_query($data) ;
  3. $opts = array (
  4. 'http' => array (
  5. 'method' => 'POST',
  6. 'header'=> "Content-type: application/x-www- form-urlencodedrn" .
  7. "Content-Length: " . strlen($data) . "rn",
  8. 'content' => $data
  9. )
  10. );
  11. $context = stream_context_create($opts);
  12. $html = file_get_contents('http://localhost/e/admin/test.html', false, $context);
  13. echo $html;
  14. ?>
  15. ?>
複製程式碼

方法4:用fsockopen函數開啟url,以get方式取得完整的數據,包括header和body
  1. function get_url ($url,$cookie=false)
  2. {
  3. $url = parse$cookie=false)
  4. {
  5. $url = parse$cookie(url) ;
  6. $query = $url[path]."?".$url[query];
  7. echo "Query:".$query;
  8. $fp = fsockopen( $url[host], $ url[port]?$url[port]:80 , $errno, $errstr, 30);
  9. if (!$fp) {
  10. return false;
  11. } else {
  12. $request = "GET $query HTTP/1.1rn";
  13. $request .= "Host: $url[host]rn";
  14. $request .= "Connection: Closern";
  15. if($cookie) $ request.="Cookie: $cookien";
  16. $request.="rn";
  17. fwrite($fp,$request);
  18. while()) {
  19. $result .= @fgets ($fp, 1024);
  20. }
  21. fclose($fp);
  22. return $result;
  23. }
  24. }
  25. //取得url的html部分,去掉header
  26. function GetUrlHTML($url,$cookie=false)
  27. {
  28. $rowdata = get_url($url,$cookie);
  29. if($rowdata)
  30. {
  31. $body= stristr ($rowdata,"rnrn");
  32. $body=substr($body,4,strlen($body));
  33. return $body;
  34. }
  35. return false;
}
?>

複製程式碼

方法5:用fsockopen函數開啟url,以POST方式取得完整的數據,包括header和body
  1. function HTTP_Post($URL,$data,$cookie, $referrer="")
  2. {
  3. / / parsing the given URL
  4. $URL_Info=parse_url($URL);
  5. // Building referrer
  6. if($referrer=="") // if not given use this script as referrer
  7. $ referrer="111″;
  8. // making string from $data
  9. foreach($data as $key=>$value)
  10. $values[]="$key=".urlencode($value) ;
  11. $data_string=implode("&",$values);
  12. // Find out which port is needed – if not given use standard (=80)
  13. if(!isset($URL_Info[" port"]))
  14. $URL_Info["port"]=80;
  15. // building POST-request:
  16. $request.="POST ".$URL_Info["path"]." HTTP/ 1.1n";
  17. $request.="Host: ".$URL_Info["host"]."n";
  18. $request.="Referer: $referern";
  19. $request.=" Content-type: application/x-www-form-urlencodedn";
  20. $request.="Content-length: ".strlen($data_string)."n";
  21. $request.="Connection: closen ";
  22. $request.="Cookie: $cookien";
  23. $request.="n";
  24. $request.=$data_string."n";
  25. $request.="n";
  26. $request.=$data_string."n";
  27. $fp = fsockopen($ URL_Info["host"],$URL_Info["port"]);
  28. fputs($fp, $request);
  29. while(!feof($fp)) {
  30. $result .= fgets( $fp, 1024);
  31. }
fclose($fp);
return $result;}?>

?>
  1. ?>
  2. 複製碼
  3. 複製程式碼
  4. 方法6:使用curl函式庫,使用curl函式庫之前,可能要先查看一下php.ini是否已經開啟了curl擴充
$ch = curl_init();$timeout = 5;curl_setopt ($%ch, CUR 'PT_URS, CUR ' http://www.domain.com/');curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $時間);curl_close($ch);echo $file_contents;?> 複製程式碼

php中 curl, fsockopen ,file_get_contents 三個函數 都可以實現採集模擬發言 。三者有什麼差別,或講究麼 趙永斌: 有些時候用file_get_contents()呼叫外部檔案,容易逾時報錯。換成curl後就可以.具體原因不清楚 curl 效率比file_get_contents()和fsockopen()高一些,原因是CURL會自動對DNS資訊進行快取(亮點啊有我待親測)

範佳鵬: file_get_contents curl fsockopen 在目前所請求環境下選擇性操作,沒有一概而論: 具我們公司開發KBI應用來看: 剛開始採用:file_get_contents 後來採用:fsockopen 最後到至今採用:curl (遠端)我個人理解到的陳述如下(不對請指出,不到位請補充) file_get_contents 需要php.ini開啟allow_url_fopen,請求http時,使用的是http_fopen_wrapper,不會keeplive.curl是可以的。 file_get_contents()單一執行效率高,傳回沒有頭的資訊。 這是讀取一般文件的時候並沒有什麼問題,但是在讀取遠端問題的時候就會出現問題。 如果是要打一個持續連接,請多次請求多個頁面。那麼file_get_contents和fopen就會出問題。 取得的內容也可能會不對。所以做一些類似採集工作的時候,一定就有問題了。 sock較底層,配置麻煩,不易操作。 返回完整資訊。

潘少寧-騰訊: file_get_contents 雖然可以獲得某URL的內容,但不能post get啊。 curl 則可以post和get啊。還可以獲得head信息 而socket則更底層。可以設定基於UDP或TCP協定去交互 file_get_contents 和 curl 能幹的,socket都能幹。 socket能幹的,curl 就不一定能幹了 file_get_contents 更多的時候 只是去拉取資料。效率比較高 也比較簡單。 趙的情況這個我也遇過,我透過CURL設定host 就OK了。 這和網路環境有關係。

就這樣了,以上透過實例介紹了php中url、fsocket、file_get_content函數在用法上的異同,希望對大家有幫助。



陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
上一篇:php驗證類別下一篇:php驗證類別