搜尋
首頁php教程php手册100行PHP代码采集阿里巴巴商家信息

100行PHP代码采集阿里巴巴商家信息

Jun 06, 2016 pm 07:58 PM
authphp程式碼資訊商家採集阿里巴巴

——authored by 李家优 Alibaba商家信息采集说明 一、如何获取商家列表页面链接 http://www.alibaba.com/corporations/jiangmen/CN——————————–.html 例如此页面为alibaba上所有jiamen商家信息列表,也能看到 Page:1/29 字样 http://www.alibaba.

——authored by 李家优 

Alibaba商家信息采集说明

 

一、             如何获取商家列表页面链接

http://www.alibaba.com/corporations/jiangmen/CN——————————–.html

例如此页面为alibaba上所有jiamen商家信息列表,也能看到Page:1/29字样

http://www.alibaba.com/corporations/jiangmen/CN——————————–/2.html?tracelog=24581_list_turnpage

可发现末尾变成了2.html……

把?以及后面的参数去掉,并修改3、4、5试试

http://www.alibaba.com/corporations/jiangmen/CN——————————–/2.html

http://www.alibaba.com/corporations/jiangmen/CN——————————–/3.html

http://www.alibaba.com/corporations/jiangmen/CN——————————–/5.html

发现通用的列表页面链接应该是:

http://www.alibaba.com/corporations/jiangmen/CN——————————–/{$page}.html

 

二、             从列表页面获取所有页面内容

由于alibaba防采集,所以我们伪装成IE浏览器的HTTP访问。

$HTTP_SESSION=_rand();

$HTTP_SESSION;

$HTTP_URL=”http://www.alibaba.com/corporations/jiangmen/CN——————————–/”.$page.”.html”;

$ch = curl_init();

curl_setopt ($ch,CURLOPT_URL,$HTTP_URL);

curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);

curl_setopt($ch,CURLOPT_USERAGENT,”Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)”);

$res = curl_exec($ch);

curl_close ($ch);

?>

这样列表页的内容就赋值给了$res

 

三、             如何从列表页面获取具体商家链接

以第一页为例

http://www.alibaba.com/corporations/jiangmen/CN——————————–/1.html

查看源代码,可以发现所有商家名称的链接都是此样式

Jiangmen Ronda Battery Co., Ltd.

即http://{CompanyName}.en.alibaba.com

用正则从$res的内容中找出所有的{CompanyName}:

preg_match_all(‘/href\s*=\s*["|\']?([^\s"\'>]*).en.alibaba.com\”/i’,$res,$arr);

 

这样$arr中就是列表第一页中所有的商家的链接了。

 

四、             如何采集商家信息

首先循环得到单个商家的链接

foreach($arr[1] as $a=>$web)

?>

$web拼上.en.alibaba.com就是商家链接了

例如http://rondabattery.en.alibaba.com/

浏览发现 所有公司的联系信息都是http://rondabattery.en.alibaba.com/contactinfo.html

再伪装IE采集一次单个商家的联系信息页面

$HTTP_SESSION=_rand();

       $HTTP_SESSION;

       $HTTP_Server=$web;

       $HTTP_URL=”.en.alibaba.com/contactinfo.html“;

       $ch1 = curl_init();

       curl_setopt ($ch1,CURLOPT_URL,$HTTP_Server.$HTTP_URL);

       curl_setopt($ch1,CURLOPT_RETURNTRANSFER,true);

       curl_setopt($ch1,CURLOPT_USERAGENT,”Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)”);

       $res1 = curl_exec($ch1);

       curl_close ($ch1);

?>

这样$res1中就是这个rondabattery公司联系信息页面的内容了。

 

五、             如何采集联系人、电话等详细信息

http://rondabattery.en.alibaba.com/contactinfo.html

查看源代码可以发现

       

Company Name:

       

       Jiangmen Ronda Battery Co., Ltd.

公司名等信息都是这样的格式

在用正则匹配就行了:

preg_match(“/Company Name:(.*?)/s”,$res1,$Cname);

这样$Cname中就是绿色的内容

       

Company Name:

       

       Jiangmen Ronda Battery Co., Ltd.

显然

不是我们需要的内容

$Cname = trim(strip_tags($Cname[1]));

trim:去除字符串首尾的空格,

 

tip:

有时会碰到内容中有双引号(”),常见于公司介绍等内容,需要替换掉,否则存数据库时会出现sql语句错误。

$name = str_replace(“\“,”",$name);

 

六、             将获取的信息存入数据库

mysql_pconnect(“localhost”, “root“, “password“) or

       die (“Could not connect” . mysql_error());

mysql_select_db(“company“);

mysql_query(“SET NAMES ‘UTF8′”);

 

$result = mysql_query(“

INSERT INTO alibaba (

Name,Company,Address,City,Province,Region,Zip,Tel,Phone,Fax,Web

) VALUES(

‘”.htmlspecialchars($name).”‘,

‘”.htmlspecialchars($Cname).”‘,

‘”.htmlspecialchars($Add).”‘,

‘”.htmlspecialchars($City).”‘,

‘”.htmlspecialchars($Pronvice).”‘,

‘”.htmlspecialchars($Region).”‘,

‘”.htmlspecialchars($Zip).”‘,

‘”.htmlspecialchars($Tel).”‘,

‘”.htmlspecialchars($Phone).”‘,

‘”.htmlspecialchars($Fax).”‘,

‘”.htmlspecialchars($Web).”‘

)”);

?>

Htmlspecialchars是将内容中的html字符做转义处理,但默认不处理双引号,所以前面有提到需要单独将双引号替换。

 

帐户、密码、数据库名、表名以及其中各个字段定义请根据实际情况做修改。

 

七、             如何处理每个列表页面

前面的循环只将列表页面第一页的20个商家做了采集,但是有29个列表页面需要处理。

这样做一个带参数的页面跳转。

if($page >= 29){

       echo “OVER!”;exit();

}else{

       echo “++$page.”‘>”;

}

?>

然后在此php文件的开头获取需要处理的列表页号

if($_GET['page']){

       $page = $_GET['page'];

}else{

       $page = ’1′;

}

?>

 

这样php运行时会先获取需要处理的列表页号,

如果没有传page参数则从第一页开始执行,

拼出链接,即文章最开头提到的

$HTTP_URL=”http://www.alibaba.com/corporations/jiangmen/CN——————————–/”.$page.”.html”;

 

在程序最后会判断当前处理了多少页,如果达到最大页面数就显示OVER并结束程序。

否则++$page,将页号加1并做跳转继续执行此程序。

 

八、             php代码

-//W3C//DTD XHTML 1.0 Transitional//EN” “http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>

alibaba采集

set_time_limit(0);

function _rand() {

       $length=26;

       $chars = “0123456789abcdefghijklmnopqrstuvwxyz”;

       $max = strlen($chars) – 1;

       mt_srand((double)microtime() * 1000000);

       $string = ”;

      

       for($i = 0; $i

              $string .= $chars[mt_rand(0, $max)];

       }

       return $string;

}

 

error_reporting(0);

ini_set(‘html_errors’,false);

ini_set(‘display_errors’,false);

 

mysql_pconnect(“localhost”, “root”, “password”) or

       die (“Could not connect” . mysql_error());

mysql_select_db(“company”);

mysql_query(“SET NAMES ‘UTF8′”);

 

if($_GET['page']){

       $page = $_GET['page'];

}else{

       $page = ’1′;

}

$HTTP_SESSION=_rand();

$HTTP_SESSION;

$HTTP_URL=”http://www.alibaba.com/corporations/jiangmen/CN——————————–/”.$page.”.html”;

$ch = curl_init();

curl_setopt ($ch,CURLOPT_URL,$HTTP_URL);

curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);

curl_setopt($ch,CURLOPT_USERAGENT,”Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)”);

$res = curl_exec($ch);

curl_close ($ch);

 

preg_match_all(‘/href\s*=\s*["|\']?([^\s"\'>]*).en.alibaba.com\”/i’,$res,$arr);  

 

foreach($arr[1] as $a=>$web){

 

       $HTTP_SESSION=_rand();

       $HTTP_SESSION;

       $HTTP_Server=$web;

       $HTTP_URL=”.en.alibaba.com/contactinfo.html”;

       $ch1 = curl_init();

       curl_setopt ($ch1,CURLOPT_URL,$HTTP_Server.$HTTP_URL);

       curl_setopt($ch1,CURLOPT_RETURNTRANSFER,true);

       curl_setopt($ch1,CURLOPT_USERAGENT,”Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)”);

       $res1 = curl_exec($ch1);

       curl_close ($ch1);

 

       preg_match(“/contactName(.*?)/s”,$res1,$name);

       $name = strip_tags($name[1]);

       //$name = str_replace(“\”",”",$name);

       //$name = str_replace(“>”,”",$name);

       $name = trim($name);

 

       preg_match(“/Company Name:(.*?)/s”,$res1,$Cname);

       $Cname = trim(strip_tags($Cname[1]));

 

       preg_match(“/Street Address:(.*?)/s”,$res1,$Add);

       $Add = trim(strip_tags($Add[1]));

 

       preg_match(“/City:(.*?)/s”,$res1,$City);

       $City = trim(strip_tags($City[1]));

 

       preg_match(“/Province\/State:(.*?)/s”,$res1,$Pronvice);

       $Pronvice = trim(strip_tags($Pronvice[1]));

 

       preg_match(“/Country\/Region:(.*?)/s”,$res1,$Region);

       $Region = trim(strip_tags($Region[1]));

      

       preg_match(“/Zip:(.*?)/s”,$res1,$Zip);

       $Zip = trim(strip_tags($Zip[1]));

      

       preg_match(“/Telephone:(.*?)/s”,$res1,$Tel);

       $Tel = trim(strip_tags($Tel[1]));

      

       preg_match(“/Mobile Phone:(.*?)/s”,$res1,$Phone);

       $Phone = trim(strip_tags($Phone[1]));

      

       preg_match(“/Fax:(.*?)/s”,$res1,$Fax);

       $Fax = trim(strip_tags($Fax[1]));

      

       preg_match(“/Website:(.*?)/s”,$res1,$Web);

       $Web = trim(strip_tags($Web[1]));

 

$result = mysql_query(“

INSERT INTO alibaba (

Name,

Company,

Address,

City,

Province,

Region,

Zip,

Tel,

Phone,

Fax,

Web

) VALUES(

‘”.htmlspecialchars($name).”‘,

‘”.htmlspecialchars($Cname).”‘,

‘”.htmlspecialchars($Add).”‘,

‘”.htmlspecialchars($City).”‘,

‘”.htmlspecialchars($Pronvice).”‘,

‘”.htmlspecialchars($Region).”‘,

‘”.htmlspecialchars($Zip).”‘,

‘”.htmlspecialchars($Tel).”‘,

‘”.htmlspecialchars($Phone).”‘,

‘”.htmlspecialchars($Fax).”‘,

‘”.htmlspecialchars($Web).”‘

)”);

 

}

 

if($page >= 29){

       echo “OVER!”;exit();

}else{

       echo “”;

}

?>

100行PHP代码采集阿里巴巴商家信息

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能