搜尋
首頁php教程php手册采集天猫新百伦旗舰店商品数据,天猫新百伦旗舰店

采集天猫新百伦旗舰店商品数据,天猫新百伦旗舰店

Jun 13, 2016 am 09:21 AM
ht下載商品地址天貓數據旗艦店蜘蛛採集

采集天猫新百伦旗舰店商品数据,天猫新百伦旗舰店

1. 下载火蜘蛛采集器

 

 

火蜘蛛采集器下载地址:

http://firespider.duapp.com/FireSpiderWeb/index.html

 

 

 

2.安装

 

火蜘蛛采集器包含了一个客户端和一个服务端安装包。安装非常方便,一路下一步就可以安装完成。具体安装步骤可以参考它提供的安装手册。

 

3.启动

 

启动服务端:在桌面有个快捷方式“Fire Spider Server Startup”,右键-》以管理员身份运行。

启动客户端:双击桌面快捷方式“FireSpider”

 

4.试用

安装之后默认已经包含了几个采集任务了。打开客户端,如下图所示,选中一个任务后点击“执行采集”。

 

 

可以看到采集开始执行了。

 

如果需要停止采集,选中采集任务,点击“执行采集”按钮旁边的“退出”。

 

 

5.建立新百伦任务

安装之后默认已经包含了一个采集骆驼天猫店的任务——“骆驼-列表页”。我们只要参考这个,建一个自己的任务就可以了。比如我要采集 “新百伦旗舰店”,在天猫搜索“新百伦”进入新百伦天猫店,找到新百伦的列表页,链接是这样的:

 

http://newbalance.tmall.com/search.htm?spm=a220m.1000858.1000725.4.vvTbdj&rn=bda5ce8edbc3307bf802e68880861de3&user_number_id=520557274

 

接下来建一个采集新百伦的任务

 

在浏览器输出 http://localhost:8090/FireSpider/html/index.html 打开管理中心

 

 

新建一个任务,除了“任务名称”,“链接”,“数据上传链接”,其实都跟“骆驼-列表页”一样就行了。链接填写刚才的新百伦列表页的链接。

注意“数据上传链接” 字段:这个是采集器在采集到数据的时候,会把数据往这个链接以POST方式推送。因为采集器并不知道我们拿采集到的数据有什么用,只好把数据交给我们自己处理。我们可以在本地开一个REST服务,apache, tomcat, iis什么的都可以。

这里“数据上传链接” 我们填写 “http://localhost/myphp/index.php”,这里我们用的是PHP。待会会讲一个这个PHP脚本。

如果只是体验一下采集,“数据上传链接”也可以留空。

 

点击保存

 

6. 搭建WAMP

 

如果你不需要自己处理采集到的数据,这一步并不是必须的。这里讲的是PHP自定义采集数据处理,其它语言也可以略过。

6.1 安装wamp 

这个无需多言,也是一直下一步就可以了。

6.2 建立Alias 

 

输入alias名称

输入alias对应的目录

6.3 index.php脚本

 

 

[php] view plaincopy
  1.   
  2.   
  3. // 注意PHP文件要保存为UTF-8无BOM格式  
  4.   
  5.   
  6. // 取得POST过来的数据  
  7. // 因为firespider post时没有设置content type,所以要用这种方式取post数据,不能用$_POST  
  8. $content = file_get_contents("php://input");  
  9.   
  10.   
  11. // JSON解码  
  12. $p = json_decode($content);  
  13.   
  14.   
  15. // 后面可以写你自己的逻辑。这里只是保存到一个文件中  
  16. $james=fopen("e:/test/json-".$p->urlId.".txt", "w");  
  17.   
  18.   
  19. if(!$james) {  
  20.     echo'file not exist';  
  21.     exit;  
  22. }  
  23.   
  24.   
  25. fwrite($james, $content);  
  26. fclose($james);  



 

 

7. 采集新百伦

任务建立后就可以开始采集了。打开采集器客户端,在任务标签页,选中我们刚才新建的“新百伦”,点击“执行采集”

 

 

采集开始后,我们就可以在e:/test/ 下的josn-xxx.txt看到采集到的数据啦。

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器