PHP单线程实现并行抓取网页-php手册-PHP中文網

首頁

php教程

php手册

PHP单线程实现并行抓取网页

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 13, 2016 am 09:28 AM

php單執行緒實現將平行抓取教學模擬執行緒網頁

PHP单线程实现并行抓取网页

　　本PHP教程将模拟并行抓取多个页面信息的过程，关键在于单线程的并行处理。

　　一般情况下，大家写抓取多个页面信息的程序都采用串行方案，但获取周期过长，不实用。于是我想到用curl 去并行抓取。但是，最后发现，那个虚拟服务器上没有curl，这真是让人纠结。于是，我决定改变思路，用单个线程也实现多个线程的效果。我想对网络编程有点

　　了解的人肯定知道IO复用这个概念，当然PHP上也是支持的，而且，内部支持，不需要任何扩展。

　　可能有很多年编程经验的人对PHP的stream 函数可能不太了解。PHP的压缩文件流，文件流，tcp 协议下的应用都封装成一个stream。所以，读本地文件

　　和读网络文件没有任何的差别。说了这样多，我想大家都基本上明白了，直接贴上代码吧：

　　代码比较的粗糙，如果大家要实际用的话，还是要处理一些细节问题。

　　代码

　　function http_get_open($url)

　　{

　　$url = parse_url($url);

　　if (empty($url['host'])) {

　　return false;

　　}

　　$host = $url['host'];

　　if (empty($url['path'])) {

　　$url['path'] = "/";

　　}

　　$get = $url['path'] . "?" . @$url['query'];

　　$fp = stream_socket_client("tcp://{$host}:80", $errno, $errstr, 30);

　　if (!$fp) {

　　echo "$errstr ($errno)
\n";

　　return false;

　　} else {

　　fwrite($fp, "GET {$get} HTTP/1.0\r\nHost: {$host}\r\nAccept: */*\r\n\r\n");

　　}

　　return $fp;

　　}

　　function http_multi_get($urls)

　　{

　　$result = array();

　　$fps = array();

　　foreach ($urls as $key => $url)

　　{

　　$fp = http_get_open($url);

　　if ($fp === false) {

　　$result[$key] = false;

　　} else {

　　$result[$key] = '';

　　$fps[$key] = $fp;

　　}

　　while (1)

　　{

　　$reads = $fps;

　　if (empty($reads)) {

　　break;

　　}

　　if (($num = stream_select($reads, $w = null, $e = null, 30)) === false ) {

　　echo "error";

　　return false;

　　} else if ($num > 0) {//can read

　　foreach ($reads as $value)

　　{

　　$key = array_search($value, $fps);

　　if (!feof($value)) {

　　$result[$key] .= fread($value, 128);

　　} else {

　　unset($fps[$key]);

　　}

　　} else {//time out

　　echo "timeout";

　　return false;

　　}

　　foreach ($result as $key => &$value)

　　{

　　if ($value) {

　　$value = explode("\r\n\r\n", $value, 2);

　　}

　　return $result;

　　}

　　$urls = array();

　　$urls[] = "http://www.qq.com";

　　$urls[] = "http://www.sina.com.cn";

　　$urls[] = "http://www.sohu.com";

　　$urls[] = "http://www.blue1000.com";

　　//并行的抓取

　　$t1 = microtime(true);

　　$result = http_multi_get($urls);

　　$t1 = microtime(true) - $t1;

　　var_dump("cost: " . $t1);

　　//串行的抓取

　　$t1 = microtime(true);

　　foreach ($urls as $value)

　　{

　　file_get_contents($value);

　　}

　　$t1 = microtime(true) - $t1;

　　var_dump("cost: " . $t1);

　　最后运行的结果：

　　string 'cost: 3.2403128147125' (length=21)

　　string 'cost: 6.2333900928497' (length=21)

　　基本上是两倍的效率，当然，发现新浪非常的慢，要2.5s 左右，

　　基本上是被他给拖累了，360只要 0.2s

　　如果，所有网站都差不多的速度，并行的数目更大，那么差的倍数也就越大。

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中，你可以繼續在那裡關注我們。 MinGW：GNU編譯器集合（GCC）的本機Windows移植版本，可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔；包括對MSVC執行時間的擴展，以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF是一個PHP庫，可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件，並處理不同的語言。與原始腳本如HTML2FPDF相比，它的速度較慢，並且在使用Unicode字體時產生的檔案較大，但支援CSS樣式等，並進行了大量增強。支援幾乎所有語言，包括RTL（阿拉伯語和希伯來語）和CJK（中日韓）。支援嵌套的區塊級元素（如P、DIV），