찾다
php教程php手册采集天猫新百伦旗舰店商品数据,天猫新百伦旗舰店

采集天猫新百伦旗舰店商品数据,天猫新百伦旗舰店

Jun 13, 2016 am 09:21 AM
ht아래에다운로드상품장치주소티몰데이터플래그십 스토어거미수집

采集天猫新百伦旗舰店商品数据,天猫新百伦旗舰店

1. 下载火蜘蛛采集器

 

 

火蜘蛛采集器下载地址:

http://firespider.duapp.com/FireSpiderWeb/index.html

 

 

 

2.安装

 

火蜘蛛采集器包含了一个客户端和一个服务端安装包。安装非常方便,一路下一步就可以安装完成。具体安装步骤可以参考它提供的安装手册。

 

3.启动

 

启动服务端:在桌面有个快捷方式“Fire Spider Server Startup”,右键-》以管理员身份运行。

启动客户端:双击桌面快捷方式“FireSpider”

 

4.试用

安装之后默认已经包含了几个采集任务了。打开客户端,如下图所示,选中一个任务后点击“执行采集”。

 

 

可以看到采集开始执行了。

 

如果需要停止采集,选中采集任务,点击“执行采集”按钮旁边的“退出”。

 

 

5.建立新百伦任务

安装之后默认已经包含了一个采集骆驼天猫店的任务——“骆驼-列表页”。我们只要参考这个,建一个自己的任务就可以了。比如我要采集 “新百伦旗舰店”,在天猫搜索“新百伦”进入新百伦天猫店,找到新百伦的列表页,链接是这样的:

 

http://newbalance.tmall.com/search.htm?spm=a220m.1000858.1000725.4.vvTbdj&rn=bda5ce8edbc3307bf802e68880861de3&user_number_id=520557274

 

接下来建一个采集新百伦的任务

 

在浏览器输出 http://localhost:8090/FireSpider/html/index.html 打开管理中心

 

 

新建一个任务,除了“任务名称”,“链接”,“数据上传链接”,其实都跟“骆驼-列表页”一样就行了。链接填写刚才的新百伦列表页的链接。

注意“数据上传链接” 字段:这个是采集器在采集到数据的时候,会把数据往这个链接以POST方式推送。因为采集器并不知道我们拿采集到的数据有什么用,只好把数据交给我们自己处理。我们可以在本地开一个REST服务,apache, tomcat, iis什么的都可以。

这里“数据上传链接” 我们填写 “http://localhost/myphp/index.php”,这里我们用的是PHP。待会会讲一个这个PHP脚本。

如果只是体验一下采集,“数据上传链接”也可以留空。

 

点击保存

 

6. 搭建WAMP

 

如果你不需要自己处理采集到的数据,这一步并不是必须的。这里讲的是PHP自定义采集数据处理,其它语言也可以略过。

6.1 安装wamp 

这个无需多言,也是一直下一步就可以了。

6.2 建立Alias 

 

输入alias名称

输入alias对应的目录

6.3 index.php脚本

 

 

[php] view plaincopy
  1.   
  2.   
  3. // 注意PHP文件要保存为UTF-8无BOM格式  
  4.   
  5.   
  6. // 取得POST过来的数据  
  7. // 因为firespider post时没有设置content type,所以要用这种方式取post数据,不能用$_POST  
  8. $content = file_get_contents("php://input");  
  9.   
  10.   
  11. // JSON解码  
  12. $p = json_decode($content);  
  13.   
  14.   
  15. // 后面可以写你自己的逻辑。这里只是保存到一个文件中  
  16. $james=fopen("e:/test/json-".$p->urlId.".txt", "w");  
  17.   
  18.   
  19. if(!$james) {  
  20.     echo'file not exist';  
  21.     exit;  
  22. }  
  23.   
  24.   
  25. fwrite($james, $content);  
  26. fclose($james);  



 

 

7. 采集新百伦

任务建立后就可以开始采集了。打开采集器客户端,在任务标签页,选中我们刚才新建的“新百伦”,点击“执行采集”

 

 

采集开始后,我们就可以在e:/test/ 下的josn-xxx.txt看到采集到的数据啦。

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구