搜尋
首頁後端開發php教程3種PHP實現資料擷取方法
3種PHP實現資料擷取方法Mar 27, 2018 am 11:56 AM
php實現數據採集

什麼叫採集?就是使用PHP程序,把其他網站的資訊抓取到我們自己的資料庫中、網站中。本文主要和大家分享3種PHP實作資料蒐集方法,希望能幫助大家。

PHP製作採集的技術:

從底層的socket到高層的檔案操作函數,一共有3種方法可以實現採集。

1. 使用socket技術收集:

socket採集是最底層的,它只是建立了一個長連接,然後我們要自己構造http協議字串去發送請求。

例如要想取得這個頁面的內容,http://tv.youku.com/?spm=a2hww.20023042.topNav.5~1~3!2~A,用socket寫如下:

<?php
//连接,$error错误编号,$errstr错误的字符串,30s是连接超时时间
$fp=fsockopen("www.youku.com",80,$errno,$errstr,30);
if(!$fp) die("连接失败".$errstr);
 
//构造http协议字符串,因为socket编程是最底层的,它还没有使用http协议
$http="GET /?spm=a2hww.20023042.topNav.5~1~3!2~A HTTP/1.1\r\n";   //  \r\n表示前面的是一个命令
$http.="Host:www.youku.com\r\n";  //请求的主机
$http.="Connection:close\r\n\r\n";   // 连接关闭,最后一行要两个\r\n
 
//发送这个字符串到服务器
fwrite($fp,$http,strlen($http));
//接收服务器返回的数据
$data=&#39;&#39;;
while (!feof($fp)) {
$data.=fread($fp,4096);  //fread读取返回的数据,一次读取4096字节
}
//关闭连接
fclose($fp);
var_dump($data);
?>

列印出的結果如下,包含了傳回的頭資訊及頁面的原始碼:

 

2. 使用curl_一套函數

curl把HTTP協定都封裝成了很多函數,直接傳遞對應參數即可,降低了編寫HTTP協定字串的難度。

前提:在php.ini中要開啟curl擴充。

//生成一个curl对象
$curl=curl_init();
//设置URL和相应的选项
curl_setopt($curl, CURLOPT_URL, "http://www.youku.com");
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);  //将curl_exec()获取的信息以字符串返回,而不是直接输出。
//执行curl操作
$data=curl_exec($curl);
var_dump($data);

列印的結果如下,只包含頁面的原始碼:

3. 直接使用file_get_contents(最頂層的)

#」前提:在php.ini中設定允許開啟一個網路的url位址。

 

#
//使用file_get_contents()
$data=file_get_contents("http://www.youku.com");
var_dump($data);


#
/**
 * 发一个GET请求获取数据
 */
function get($url)
{
   global $curl;
   // 配置curl中的http协议->可配置的荐可以查PHP手册中的curl_
   curl_setopt($curl, CURLOPT_URL, $url);
   curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
   curl_setopt($curl, CURLOPT_HEADER, FALSE);
   // 执行这个请求
   return curl_exec($curl);
}
 
// 生成一个curl对象
$curl = curl_init();
$url=&#39;http://list.youku.com/category/show/c_96_a_%E7%BE%8E%E5%9B%BD_s_1_d_1_p_3.html&#39;;
$data=get($url);
// 匹配电影所在位置
$list_preg = &#39;/<li class="yk-col4 mr1">.+<\/li>/Us&#39;;
// 匹配img标签上的src和alt
$img_preg = &#39;/<img class="quic lazy"  src="/static/imghwm/default1.png"  data-src="(.*)"   _  alt="(.*)" \/>/U&#39;;
//匹配电影的url
$video_preg=&#39;/<a href="(.*)" title="(.*)" target="(.*)"><\/a>/U&#39;;
//把所有的li存到$list里,$list是个二维数组
preg_match_all($list_preg,$data,$list);
   //var_dump($list);
foreach ($list[0] as $k => $v) {   //这里$v就是每一个li标签
/* 获取图片及电影名称
    preg_match($img_preg,$v,$img);  //把匹配到的图片的信息存到$img里
    var_dump($img);
    */
    /*获取电影地址
    preg_match($video_preg,$v,$video);  //把匹配到的电影的信息存到$video里
    var_dump($video);
*/
    preg_match($img_preg,$v,$img);
    preg_match($video_preg,$v,$video);
    echo $img[0].&#39;<a href="&#39;.$video[1].&#39;">&#39;.$video[2].&#39;</a>&#39;;
}

##3種方式的選擇

網路之間通訊主要使用的是以上三種。其中後兩種用的較多:

如果要大量採集大量的資料時使用第二種【CURL】,效能好、穩定。

偶爾發幾個請求發送的頻繁不密集時使用第三種。

擴充:圖片的防盜鏈如何破?

例如7060網站上的圖片做了防盜鏈:在他的網站中可以看到圖片,把圖片拿到站外就無法訪問。

 

原則:在HTTP協定中有一個referer項,代表發這個請求的來源位址,伺服器會判斷如果這個請求不是這個網站發來的就會過濾掉這個請求:

 

解決方法:發HTTP時自己模擬referer即可:

 

########## 擴充功能:有些要擷取資料時必須先登錄,可以使用模擬的試模擬登入狀態下的採集:############a. 先用瀏覽登入一下,登入完,瀏覽器的COOKIE中就會有SESSIONID#######

b. 发PHP发HTTP协议时,把浏览器中的SESSIONID放到PHP的HTTP协议请求里,这样就在以登录的状态发请求。

总结:所有客户端发过来的数据都可以被模拟,所以服务器上的程序必须要必要的地方过滤客户端的数据。

什么时候用以上东西?接口开发时、采集时。

二、数据采集

例如我要采集这个url里的所有美国电影的信息,

http://list.youku.com/category/show/c_96_a_%E7%BE%8E%E5%9B%BD_s_1_d_1_p_3.html

则先要知道电影所在的节点的结构,我们使用firebug查看。

 

然后开始写代码:完整代码如下

/**
 * 发一个GET请求获取数据
 */
function get($url)
{
   global $curl;
   // 配置curl中的http协议->可配置的荐可以查PHP手册中的curl_
   curl_setopt($curl, CURLOPT_URL, $url);
   curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
   curl_setopt($curl, CURLOPT_HEADER, FALSE);
   // 执行这个请求
   return curl_exec($curl);
}
 
// 生成一个curl对象
$curl = curl_init();
$url=&#39;http://list.youku.com/category/show/c_96_a_%E7%BE%8E%E5%9B%BD_s_1_d_1_p_3.html&#39;;
$data=get($url);
// 匹配电影所在位置
$list_preg = &#39;/<li class="yk-col4 mr1">.+<\/li>/Us&#39;;
// 匹配img标签上的src和alt
$img_preg = &#39;/<img class="quic lazy"  src="/static/imghwm/default1.png"  data-src="(.*)"   _  alt="(.*)" \/>/U&#39;;
//匹配电影的url
$video_preg=&#39;/<a href="(.*)" title="(.*)" target="(.*)"><\/a>/U&#39;;
//把所有的li存到$list里,$list是个二维数组
preg_match_all($list_preg,$data,$list);
   //var_dump($list);
foreach ($list[0] as $k => $v) {   //这里$v就是每一个li标签
/* 获取图片及电影名称
    preg_match($img_preg,$v,$img);  //把匹配到的图片的信息存到$img里
    var_dump($img);
    */
    /*获取电影地址
    preg_match($video_preg,$v,$video);  //把匹配到的电影的信息存到$video里
    var_dump($video);
*/
    preg_match($img_preg,$v,$img);
    preg_match($video_preg,$v,$video);
    echo $img[0].&#39;<a href="&#39;.$video[1].&#39;">&#39;.$video[2].&#39;</a>&#39;;
}

测试:

打印$list;

 

打印$img

 

打印$video

 

 

最终效果:

 

如果需要把图片拷贝到硬盘上,则在foreach循环里加上以下代码:

 $imgData = get($img[1]);
    // 把图片文件写到硬盘上【下载】
    // 因为操作系统是GBK的,所以要把UTF8转成GBK
    is_dir(&#39;./youkuimg/&#39;) ? &#39;&#39;: mkdir(&#39;./youkuimg/&#39;);
	file_put_contents(&#39;./youkuimg/&#39;.mb_convert_encoding($img[3], &#39;gbk&#39;, &#39;utf-8&#39;).&#39;.jpg&#39;, $imgData);


 

效果如下:在当前目录下的youkuimg目录下就会有下载好的图片。



my github: https://github.com/lensh

 

以上是3種PHP實現資料擷取方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
php怎么把负数转为正整数php怎么把负数转为正整数Apr 19, 2022 pm 08:59 PM

php把负数转为正整数的方法:1、使用abs()函数将负数转为正数,使用intval()函数对正数取整,转为正整数,语法“intval(abs($number))”;2、利用“~”位运算符将负数取反加一,语法“~$number + 1”。

php怎么判断有没有小数点php怎么判断有没有小数点Apr 20, 2022 pm 08:12 PM

php判断有没有小数点的方法:1、使用“strpos(数字字符串,'.')”语法,如果返回小数点在字符串中第一次出现的位置,则有小数点;2、使用“strrpos(数字字符串,'.')”语句,如果返回小数点在字符串中最后一次出现的位置,则有。

php怎么设置implode没有分隔符php怎么设置implode没有分隔符Apr 18, 2022 pm 05:39 PM

在PHP中,可以利用implode()函数的第一个参数来设置没有分隔符,该函数的第一个参数用于规定数组元素之间放置的内容,默认是空字符串,也可将第一个参数设置为空,语法为“implode(数组)”或者“implode("",数组)”。

php怎么将url的参数转化成数组php怎么将url的参数转化成数组Apr 21, 2022 pm 08:50 PM

转化方法:1、使用“mb_substr($url,stripos($url,"?")+1)”获取url的参数部分;2、使用“parse_str("参数部分",$arr)”将参数解析到变量中,并传入指定数组中,变量名转为键名,变量值转为键值。

PHP学习笔记:网络爬虫与数据采集PHP学习笔记:网络爬虫与数据采集Oct 08, 2023 pm 12:04 PM

PHP学习笔记:网络爬虫与数据采集引言:网络爬虫是一种自动从互联网上抓取数据的工具,它可以模拟人的行为,浏览网页并收集所需的数据。PHP作为一种流行的服务器端脚本语言,在网络爬虫和数据采集领域也发挥了重要的作用。本文将介绍如何使用PHP编写网络爬虫,并提供实际的代码示例。一、网络爬虫的基本原理网络爬虫的基本原理是通过发送HTTP请求,接收并解析服务器响应的H

php怎么去除首位数字php怎么去除首位数字Apr 20, 2022 pm 03:23 PM

去除方法:1、使用substr_replace()函数将首位数字替换为空字符串即可,语法“substr_replace($num,"",0,1)”;2、用substr截取从第二位数字开始的全部字符即可,语法“substr($num,1)”。

php怎么去掉右边几个字符php怎么去掉右边几个字符Apr 21, 2022 pm 07:45 PM

去掉方法:1、用substr_replace()删除右边n位置开始的全部字符,语法“substr_replace($str,"",-n)”,参数“n”为需要去除的字符个数;2、用substr(),语法“substr($str,0,-n)”。

php怎么去掉数组键值php怎么去掉数组键值Apr 20, 2022 pm 05:12 PM

php去掉数组键值的方法:1、使用“array_keys($array)”语句,可去掉全部键值,返回包含全部键名的数组;2、使用“array_splice($array,$start,$length)”语句,可去掉指定位置的一个或多个键值。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
1 個月前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)