最近做一個網頁小偷程式的時候才發現file_get_content已經完全無法滿足需求了。
我覺得,在讀取遠端內容時,file_get_content除了使用比curl便捷以外,其他都沒有curl好
抓取遠端內容,之前一直都在用file_get_content函數,其實早就知道有curl這麼一個好東西的存在,但是看了一眼後感覺使用頗有些複雜,沒有file_get_content那麼簡單,再就是需求也不大,所以沒有學習使用curl。
php中curl和file_get_content的一些比較
主要區別:
curl支援很多協議,有FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE以及LDAP,也就是說,它能做到很多file_get_content做不到的事情。 curl在php可以實現遠端取得與擷取內容;實現PHP網頁版的FTP上傳下載;實現模擬登陸;實現介面對接(API),資料傳輸;實現模擬Cookie;下載檔案斷點續傳等等,功能十分強大。
了解curl一些基本的使用後,才發現其實並不難,只不過記住裡面一些設定參數,難弄一點,但是我們記住幾個常用的就可以了。
開啟curl:
因為PHP預設是不支援curl功能的,所以如果要用curl的話,首先需要在php.ini中開啟該功能,即去掉;extension= php_curl.dll 前面的分號,然後保存後重啟apache/iis就好了。
基本語法:
-
- $my_curl = curl_init(); //初始化一個curl物件
- curl_setopt($my_curl, CURLOPT_URL, "http://bbs.it- home.org"); //設定你需要抓取的URL
- curl_setopt($my_curl,CURLOPT_RETURNTRANSFER,1); //設定是將結果儲存到字串中還是輸出到螢幕上,1表示將結果儲存到字串
- $str = curl_exec($curl); //執行請求
- echo $str; //輸出抓取的結果
- curl_close($curl); //關閉url請求
-
複製程式碼
最近需要取得別人網站上的音樂資料。用了file_get_contents函數,但是總是會遇到取得失敗的問題,儘管按照手冊中的例子設定了逾時,可多數時候不會奏效:
-
- $config['context'] = stream_context_create(array('http' => array('method' => "GET",
- ' timeout' => 5//這個超時時間不穩定,常常不奏效
- )
- ));
複製程式碼
這時候,看一下伺服器的連線池,會發現一堆類似的錯誤,讓我頭痛萬分:
file_get_contents(http://***): failed to open stream…
現在改用了curl函式庫,寫了一個函數替換:
-
-
-
-
-
- function curl_file_get_contents($durl){
- $ch = curl_init();
- curl_setopt($chL, CURt(UR
- curl_setopt($ch, CURLOPT_TIMEOUT, 5);
- curl_setopt($ch, CURLOPT_USERAGENT, _USERAGENT_);
- curl_setopt($ch, CURURPT_REER_,top_*> RANSFER, 1) ;
- $r = curl_exec($ch);
- curl_close($ch);
return $r; }
複製程式碼
複製程式碼-
- 如此,除了真正的網路問題外,沒再出現任何問題。
這是別人做過的關於curl和file_get_contents的測試:
file_get_contents抓取google.com需用秒數:
2.31319094
2.30374217
2.21512604
3.30553889
2.30124092
curl使用的時間:
0.68719101
0.64675593
0.64326
0.81983113
0.63956594
差距很大?呵呵,從我使用的經驗來說,這兩個工具不只是速度有差異,穩定性也相差很大。
建議對網路資料抓取穩定性要求比較高的朋友使用上面的 curl_file_get_contents函數,不僅穩定速度快,還能假瀏覽器欺騙目標位址!
- 說到curl與file_get_contents的用法,之前的文章中多有提及,這裡推薦幾篇不錯的文章,大家做個參考:
-
PHP file_get_contents逾時處理的設定方法-
php file_get_contents抓取Gzip網頁亂碼的解決方法-
php中file_get_contents逾時問題的解決方法-
PHP file_get_contents逾時的設定方法
php file_get_content相容性偵測的範例
php file_get_contents抓取頁面資訊的程式碼
php file_get_contents函式抓取頁面資訊的程式碼-
-
- 方法1: 用file_get_contents 以get方式取得內容
-
-
-
-
$url='http://www.domain.com/';$html = file_get_contents($url.domain.com/'; $html = file_get_contents($url );echo $html;?> 複製程式碼方法2: 用fopen開啟url, 以get方式取得內容
-
-
$fp = fopen($url, 'r');
- stream_get_meta_data($fp);
- while (!feof($fp)) {
- $result .= fgets($fp, 1024);
- }
- echo "url body: $result";
- fclose($fp);
- ?>
-
複製程式碼
方法3:用file_get_contents函數,以post方式取得url
-
-
$data = array ('foo' => 'bar');
- $data = http_build_query($data) ;
- $opts = array (
- 'http' => array (
- 'method' => 'POST',
- 'header'=> "Content-type: application/x-www- form-urlencodedrn" .
- "Content-Length: " . strlen($data) . "rn",
- 'content' => $data
- )
- );
- $context = stream_context_create($opts);
- $html = file_get_contents('http://localhost/e/admin/test.html', false, $context);
- echo $html;
- ?>
- ?>
複製程式碼
方法4:用fsockopen函數開啟url,以get方式取得完整的數據,包括header和body
-
-
-
function get_url ($url,$cookie=false)
- {
- $url = parse$cookie=false)
- {
- $url = parse$cookie(url) ;
- $query = $url[path]."?".$url[query];
- echo "Query:".$query;
- $fp = fsockopen( $url[host], $ url[port]?$url[port]:80 , $errno, $errstr, 30);
- if (!$fp) {
- return false;
- } else {
- $request = "GET $query HTTP/1.1rn";
- $request .= "Host: $url[host]rn";
- $request .= "Connection: Closern";
- if($cookie) $ request.="Cookie: $cookien";
- $request.="rn";
- fwrite($fp,$request);
- while()) {
- $result .= @fgets ($fp, 1024);
- }
- fclose($fp);
- return $result;
- }
- }
- //取得url的html部分,去掉header
- function GetUrlHTML($url,$cookie=false)
- {
- $rowdata = get_url($url,$cookie);
- if($rowdata)
- {
- $body= stristr ($rowdata,"rnrn");
- $body=substr($body,4,strlen($body));
- return $body;
- }
- return false;
} ?>
複製程式碼
方法5:用fsockopen函數開啟url,以POST方式取得完整的數據,包括header和body
-
-
-
-
-
function HTTP_Post($URL,$data,$cookie, $referrer="")
- {
- / / parsing the given URL
- $URL_Info=parse_url($URL);
- // Building referrer
- if($referrer=="") // if not given use this script as referrer
- $ referrer="111″;
- // making string from $data
- foreach($data as $key=>$value)
- $values[]="$key=".urlencode($value) ;
- $data_string=implode("&",$values);
- // Find out which port is needed – if not given use standard (=80)
- if(!isset($URL_Info[" port"]))
- $URL_Info["port"]=80;
- // building POST-request:
- $request.="POST ".$URL_Info["path"]." HTTP/ 1.1n";
- $request.="Host: ".$URL_Info["host"]."n";
- $request.="Referer: $referern";
- $request.=" Content-type: application/x-www-form-urlencodedn";
- $request.="Content-length: ".strlen($data_string)."n";
- $request.="Connection: closen ";
- $request.="Cookie: $cookien";
- $request.="n";
- $request.=$data_string."n";
- $request.="n";
- $request.=$data_string."n";
- $fp = fsockopen($ URL_Info["host"],$URL_Info["port"]);
- fputs($fp, $request);
- while(!feof($fp)) {
- $result .= fgets( $fp, 1024);
- }
fclose($fp); return $result; }?>
?>
-
- ?>
-
-
-
- 複製碼
- 複製程式碼
-
-
- 方法6:使用curl函式庫,使用curl函式庫之前,可能要先查看一下php.ini是否已經開啟了curl擴充
-
-
$ch = curl_init();$timeout = 5;curl_setopt ($%ch, CUR 'PT_URS, CUR ' http://www.domain.com/');curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $時間);curl_close($ch);echo $file_contents;?> 複製程式碼 php中 curl, fsockopen ,file_get_contents 三個函數 都可以實現採集模擬發言 。三者有什麼差別,或講究麼
趙永斌:
有些時候用file_get_contents()呼叫外部檔案,容易逾時報錯。換成curl後就可以.具體原因不清楚
curl 效率比file_get_contents()和fsockopen()高一些,原因是CURL會自動對DNS資訊進行快取(亮點啊有我待親測)
範佳鵬:
file_get_contents curl fsockopen
在目前所請求環境下選擇性操作,沒有一概而論:
具我們公司開發KBI應用來看:
剛開始採用:file_get_contents
後來採用:fsockopen
最後到至今採用:curl
(遠端)我個人理解到的陳述如下(不對請指出,不到位請補充)
file_get_contents 需要php.ini開啟allow_url_fopen,請求http時,使用的是http_fopen_wrapper,不會keeplive.curl是可以的。
file_get_contents()單一執行效率高,傳回沒有頭的資訊。
這是讀取一般文件的時候並沒有什麼問題,但是在讀取遠端問題的時候就會出現問題。
如果是要打一個持續連接,請多次請求多個頁面。那麼file_get_contents和fopen就會出問題。
取得的內容也可能會不對。所以做一些類似採集工作的時候,一定就有問題了。
sock較底層,配置麻煩,不易操作。 返回完整資訊。
潘少寧-騰訊:
file_get_contents 雖然可以獲得某URL的內容,但不能post get啊。
curl 則可以post和get啊。還可以獲得head信息
而socket則更底層。可以設定基於UDP或TCP協定去交互
file_get_contents 和 curl 能幹的,socket都能幹。
socket能幹的,curl 就不一定能幹了
file_get_contents 更多的時候 只是去拉取資料。效率比較高 也比較簡單。
趙的情況這個我也遇過,我透過CURL設定host 就OK了。 這和網路環境有關係。
就這樣了,以上透過實例介紹了php中url、fsocket、file_get_content函數在用法上的異同,希望對大家有幫助。
|