php 多線程抓取網頁實例程式碼-php教程-PHP中文網

首頁

後端開發

php教程

php 多線程抓取網頁實例程式碼

怪我咯

Jul 11, 2017 pm 02:47 PM

php程式碼實例

多執行緒（英文：multithreading），是指從軟體或硬體上實作多個執行緒並發執行的技術。具有多線程能力的電腦因有硬體支援而能夠在同一時間執行多於一個線程，進而提升整體處理效能。具有這種能力的系統包括對稱多處理機、多核心處理器以及晶片級多處理（Chip-level multithreading）或同時多執行緒（Simultaneous multithreading）處理器。 [1] 在一個程式中，這些獨立運作的程式片段叫作「執行緒」（Thread），利用它程式的概念就叫作「多執行緒處理（Multithreading）」。具有多執行緒能力的電腦因有硬體支援而能夠在同一時間執行多於一個執行緒（台灣譯為「執行緒」），進而提升整體處理效能。

PHP 利用 Curl Functions 可以完成各種傳送檔案操作，例如模擬瀏覽器發送GET，POST請求等等。

受限於php語言本身不支援多線程，所以開發爬蟲程式效率並不高，這時候往往需要要藉助Curl Multi Functions 它可以實現並發多線程的訪問多個url位址。既然Curl Multi Function如此強大，能否用Curl Multi Functions 來寫並發多線程下載文件呢，當然可以，下面給出我的代碼：
代碼1：將獲得的代碼直接寫入某個文件

程式碼如下:

<?php 
$urls = array( 
&#39;http://www.php.cn/&#39;, 
&#39;http://www.baidu.com/&#39;, 
&#39;http://www.163.com/&#39; 
); // 设置要抓取的页面URL 

$save_to=&#39;/test.txt&#39;; // 把抓取的代码写入该文件 

$st = fopen($save_to,"a"); 
$mh = curl_multi_init(); 

foreach ($urls as $i => $url) { 
$conn[$i] = curl_init($url); 
curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)"); 
curl_setopt($conn[$i], CURLOPT_HEADER ,0); 
curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60); 
curl_setopt($conn[$i], CURLOPT_FILE,$st); // 设置将爬取的代码写入文件 
curl_multi_add_handle ($mh,$conn[$i]); 
} // 初始化 

do { 
curl_multi_exec($mh,$active); 
} while ($active); // 执行 

foreach ($urls as $i => $url) { 
curl_multi_remove_handle($mh,$conn[$i]); 
curl_close($conn[$i]); 
} // 结束清理 

curl_multi_close($mh); 
fclose($st); 
?>

程式碼2：將獲得的程式碼先放入變數，再寫入某個檔案

程式碼如下:

<?php 
$urls = array( 
&#39;http://www.php.cn/&#39;, 
&#39;http://www.baidu.com/&#39;, 
&#39;http://www.163.com/&#39; 
); 

$save_to=&#39;/test.txt&#39;; // 把抓取的代码写入该文件 
$st = fopen($save_to,"a"); 

$mh = curl_multi_init(); 
foreach ($urls as $i => $url) { 
$conn[$i] = curl_init($url); 
curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)"); 
curl_setopt($conn[$i], CURLOPT_HEADER ,0); 
curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60); 
curl_setopt($conn[$i],CURLOPT_RETURNTRANSFER,true); // 设置不将爬取代码写到浏览器，而是转化为字符串 
curl_multi_add_handle ($mh,$conn[$i]); 
} 

do { 
curl_multi_exec($mh,$active); 
} while ($active); 

foreach ($urls as $i => $url) { 
$data = curl_multi_getcontent($conn[$i]); // 获得爬取的代码字符串 
fwrite($st,$data); // 将字符串写入文件。当然，也可以不写入文件，比如存入数据库 
} // 获得数据变量，并写入文件 

foreach ($urls as $i => $url) { 
curl_multi_remove_handle($mh,$conn[$i]); 
curl_close($conn[$i]); 
} 

curl_multi_close($mh); 
fclose($st); 
?>

以上是php 多線程抓取網頁實例程式碼的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

簡單地說明PHP會話的概念。Apr 26, 2025 am 12:09 AM

phpsessionstrackuserdataacrossmultiplepagerequestsusingauniqueIdStoredInAcookie.here'showtomanageThemeffectionaly：1）startAsessionWithSessionWwithSession_start（）和stordoredAtain $ _session.2）

您如何循環中存儲在PHP會話中的所有值？Apr 26, 2025 am 12:06 AM

在PHP中，遍歷會話數據可以通過以下步驟實現：1.使用session_start()啟動會話。 2.通過foreach循環遍歷$_SESSION數組中的所有鍵值對。 3.處理複雜數據結構時，使用is_array()或is_object()函數，並用print_r()輸出詳細信息。 4.優化遍歷時，可採用分頁處理，避免一次性處理大量數據。這將幫助你在實際項目中更有效地管理和使用PHP會話數據。

說明如何使用會話進行用戶身份驗證。Apr 26, 2025 am 12:04 AM

會話通過服務器端的狀態管理機制實現用戶認證。 1)會話創建並生成唯一ID，2)ID通過cookies傳遞，3)服務器存儲並通過ID訪問會話數據，4)實現用戶認證和狀態管理，提升應用安全性和用戶體驗。

舉一個如何在PHP會話中存儲用戶名的示例。Apr 26, 2025 am 12:03 AM

Tostoreauser'snameinaPHPsession,startthesessionwithsession_start(),thenassignthenameto$_SESSION['username'].1)Usesession_start()toinitializethesession.2)Assigntheuser'snameto$_SESSION['username'].Thisallowsyoutoaccessthenameacrossmultiplepages,enhanc

哪些常見問題會導致PHP會話失敗？Apr 25, 2025 am 12:16 AM

PHPSession失效的原因包括配置錯誤、Cookie問題和Session過期。 1.配置錯誤：檢查並設置正確的session.save_path。 2.Cookie問題：確保Cookie設置正確。 3.Session過期：調整session.gc_maxlifetime值以延長會話時間。

您如何在PHP中調試與會話相關的問題？Apr 25, 2025 am 12:12 AM

在PHP中調試會話問題的方法包括：1.檢查會話是否正確啟動；2.驗證會話ID的傳遞；3.檢查會話數據的存儲和讀取；4.查看服務器配置。通過輸出會話ID和數據、查看會話文件內容等方法，可以有效診斷和解決會話相關的問題。

如果session_start（）被多次調用會發生什麼？Apr 25, 2025 am 12:06 AM

多次調用session_start()會導致警告信息和可能的數據覆蓋。 1)PHP會發出警告，提示session已啟動。 2)可能導致session數據意外覆蓋。 3)使用session_status()檢查session狀態，避免重複調用。

您如何在PHP中配置會話壽命？Apr 25, 2025 am 12:05 AM

在PHP中配置會話生命週期可以通過設置session.gc_maxlifetime和session.cookie_lifetime來實現。 1)session.gc_maxlifetime控制服務器端會話數據的存活時間，2)session.cookie_lifetime控制客戶端cookie的生命週期，設置為0時cookie在瀏覽器關閉時過期。

See all articles