php curl网站采集的实现程序 -php手册-php.cn

Home

php教程

php手册

php curl网站采集的实现程序

PHP中文网

May 23, 2016 am 08:33 AM

网站采集功能现在多半会使用火车头这些软件来实现了,但是对于一些定时或小的采集我们可以使用程序来实现,在php中curl是当选的一个函数了,下面一起来看看curl网站采集的实现程序吧.

选择curl的理由

关于curl与file_get_contents,摘抄一段通俗易懂的对比:

file_get_contents其实是一堆内置的文件操作函数的合并版本,比如file_exists,fopen,fread,fclose,专门提供给懒人用的,而且它主要是用来对付本地文件的,但又是因为懒人的原因,同时加入了对网络文件的支持.

curl是专门用来进行网络交互的库m提供了一堆自定义选项m用来应对不同的环境m稳定性自然要大于file_get_contents,

使用方法

1、开启curl支持

由于php环境安装后默认是没有打开curl支持的,需修改php.ini文件,找到;extension=php_curl.dll,把前面的冒号去掉,重启服务即可.

2、使用curl进行数据抓取

// 初始化一个 cURL 对象 
$curl = curl_init(); 
// 设置你需要抓取的URL 
curl_setopt($curl, CURLOPT_URL, &#39;http://www.phprm.com&#39;); 
// 设置header 
curl_setopt($curl, CURLOPT_HEADER, 1); 
// 设置cURL 参数，要求结果保存到字符串中还是输出到屏幕上。 
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); 
// 运行cURL，请求网页 
$data = curl_exec($curl); 
// 关闭URL请求 
curl_close($curl);

3、通过正则匹配找到关键数据.

//$data是curl_exec返回的的值，即采集的目标内容 
preg_match_all("/(.*?)/",$data, $out, PREG_SET_ORDER); 
foreach($out as $key => $value){ 
//此处$value是数组，同时记录找到带匹配字符的整句和单独匹配的字符 
echo &#39;匹配到的整句：&#39;.$value[0].&#39; 
&#39;; 
echo &#39;单独匹配到的：&#39;.$value[1].&#39; 
&#39;; 
}

技巧

1、超时的相关设置

通过curl_setopt($ch,opt)可以设置一些超时的设置,主要包括:

CURLOPT_TIMEOUT 设置cURL允许执行的最长秒数。

CURLOPT_TIMEOUT_MS 设置cURL允许执行的最长毫秒数.(在cURL 7.16.2中被加入,从PHP 5.2.3起可使用)

CURLOPT_CONNECTTIMEOUT 在发起连接前等待的时间,如果设置为0,则无限等待.

CURLOPT_CONNECTTIMEOUT_MS 尝试连接等待的时间,以毫秒为单位,如果设置为0,则无限等待,在cURL 7.16.2中被加入,从PHP 5.2.3开始可用.

CURLOPT_DNS_CACHE_TIMEOUT 设置在内存中保存DNS信息的时间,默认为120秒.

curl_setopt($ch, CURLOPT_TIMEOUT, 60);   //只需要设置一个秒的数量就可以 
curl_setopt($ch, CURLOPT_NOSIGNAL, 1);    //注意，毫秒超时一定要设置这个 
curl_setopt($ch, CURLOPT_TIMEOUT_MS, 200);  //超时毫秒，cURL 7.16.2中被加入。从PHP 5.2.3起可使用

2、通过post提交数据,保留cookie

//以下摘抄一个例子过来，用于学习借鉴: 
//Curl 模拟登录 discuz 程序,适合DZ7.0 
!extension_loaded(&#39;curl&#39;) && die(&#39;The curl extension is not loaded.&#39;);    
$discuz_url = &#39;http://www.phprm.com&#39;;//论坛地址    
$login_url = $discuz_url .&#39;/logging.php?action=login&#39;;//登录页地址    
$get_url = $discuz_url .&#39;/my.php?item=threads&#39;; //我的帖子    
$post_fields = array();    
//以下两项不需要修改    
$post_fields[&#39;loginfield&#39;] = &#39;username&#39;;    
$post_fields[&#39;loginsubmit&#39;] = &#39;true&#39;;    
//用户名和密码，必须填写    
$post_fields[&#39;username&#39;] = &#39;lxvoip&#39;;    
$post_fields[&#39;password&#39;] = &#39;88888888&#39;;    
//安全提问    
$post_fields[&#39;questionid&#39;] = 0;    
$post_fields[&#39;answer&#39;] = &#39;&#39;;    
//@todo验证码    
$post_fields[&#39;seccodeverify&#39;] = &#39;&#39;;    
//获取表单FORMHASH    
$ch = curl_init($login_url);    
curl_setopt($ch, CURLOPT_HEADER, 0);    
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);    
$contents = curl_exec($ch);    
curl_close($ch);    
preg_match(&#39;//i&#39;, $contents, $matches);    
if(!emptyempty($matches)) {    
$formhash = $matches[1];    
} else {    
die(&#39;Not found the forumhash.&#39;);    
}

//POST数据，获取COOKIE

$cookie_file = dirname(__FILE__) . &#39;/cookie.txt&#39;;    
//$cookie_file = tempnam(&#39;/tmp&#39;);    
$ch = curl_init($login_url);    
curl_setopt($ch, CURLOPT_HEADER, 0);    
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);    
curl_setopt($ch, CURLOPT_POST, 1);    
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields);    
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);    
curl_exec($ch);    
curl_close($ch);    
//带着上面得到的COOKIE获取需要登录后才能查看的页面内容    
$ch = curl_init($get_url);    
curl_setopt($ch, CURLOPT_HEADER, 0);    
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 0);    
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);    
$contents = curl_exec($ch);    
curl_close($ch);    
var_dump($contents);

在使用curl 中有一些心得给各位分享一下.

编码转换

首先通过查看源代码找到采集的网站使用的编码,通过mb_convert_encoding函数进行转码；

具体使用方法:

//源字符是$str

//以下已知原编码为GBK，转换为utf-8

mb_convert_encoding($str, "UTF-8", "GBK");

//以下未知原编码，通过auto自动检测后，转换编码为utf-8

mb_convert_encoding($str, "UTF-8", "auto");

3、为更好地避开换行符和空格等不定因素的阻碍,有必要先清除采集到的源码中的换行符、空格符和制表符.

//方法一，使用str_replace进行替换

$contents = str_replace("\r\n", &#39;&#39;, $contents); //清除换行符 
$contents = str_replace("\n", &#39;&#39;, $contents); //清除换行符 
$contents = str_replace("\t", &#39;&#39;, $contents); //清除制表符 
$contents = str_replace(" ", &#39;&#39;, $contents); //清除空格符

//方法二，使用正则表达式进行替换

$contents = preg_replace("/([\r\n|\n|\t| ]+)/",'',$contents);

4、通过正则表达式匹配找出需要获得的代码段,使用preg_match_all实现该匹配

函数解释:

int preg_match_all ( string pattern, string subject, array matches [, int flags] )

pattern即正规表达式

subject即要进行查找的原文

matches是用于储存输出结果的数组

flags是储存的模式,包括:

PREG_PATTERN_ORDER; //整个数组是二维数组，$arr1[0]是包括边界所构成匹配字符串的数组，$arr1[1]除去边界所构成的匹配字符串的数组

PREG_SET_ORDER; //整个数组是二维数组，$arr2[0][0]是第一个包括边界所构成的匹配的字符串，$arr2[0][1]是第一个除去边界所构成的匹配的字符串，之后的数组以此类推

PREG_OFFSET_CAPTURE; //整个数组是三维数组,$arr3[0][0][0]是第一个包括边界所构成的匹配的字符串,$arr3[0][0][1]是到达第一个匹配字符串的边界的偏移量(边界不算在内),之后以此类推，$arr2[1][0][0]是第一个包括边界所构成的匹配的字符串，$arr3[1][0][1]是到达第一个匹配字符串的边界的偏移量(边界算在内);

//实际应用

preg_match_all('/

$out将获取到所有匹配的元素

$out[0][0]将是包括

在内的全段字符

$out[0][1]将是仅包括(.*?)括号内所匹配到的字符段

//如此类推，第n个匹配到的字段可以用以下方法取得

$out[n-1][1]

//若正则表达式中存大多个括号，则取得句中第m个匹配点的方法是

$out[n-1][m]

5、取得要找到字符后,若要去掉html标签,使用PHP自带的函数strip_tags即可方便地实现.

例:$result=strip_tags($out[0][1]);

上面只是把数据采集下载了,当然最好我们需要把$contents内容进入库处理了,这里就是简单的php数据查询保存的功能了,非常简单.

Statement

The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn