火车头采集器3.0采集图文教程-php手册-PHP中文網

首頁

php教程

php手册

火车头采集器3.0采集图文教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:36 PM

採集器

今天要给大家做示例的网站是163的娱乐频道这个应该是个比较通用和实用的规则，下面开始。

以采集示例详解部分功能
今天要给大家做示例的网站是163的娱乐频道这个应该是个比较通用和实用的规则，下面开始。
如果您是火车采集器的老手，那么您可以参考下，因为我要讲解的会有违传统的思维；如我您是新手那么您最好能仔细看下，因为这将加快您的入门，同时在以后给您节省很多时间。以下是一些采集的基本步骤，您可以灵活运用：
一、建立站点
1、请先打开火车采集器，新建站点，看下图：

点击在新窗口中浏览此图片

为了方便管理您可以为您的站点取任何的您觉得易记的名称，但是我建议用目标源的名字作为站点的名称有利于日后的管理，如下图

点击在新窗口中浏览此图片

大部分的站点，通站往往只有一套模版或者有几套类似的模版，这边所谓的类似讲的是模版中的标记很接近，那什么是模版标记？模版标记指的是某部分内容开始和结束记号。比如很多正规的网站（通常是一些站点比较大，内容比较多的网站，比如sina、163等）会在内容开始的部分用类似于或

等标志来表示内容的开始。他们这么作的原因有两个，一个是由于内容多，为了各个部门之间的配合而作了对应的标记以便于工程的交接，另一个原因就是内容控制的需要，随着xhtml的流行，用层控制越来越多，这就使得我们寻找采集标示越来越简单（这点你们以后会慢慢理解的）。上面给各位讲这些是因为接下来要我们要讲解的是整站内容规则。
2、标题标签讲解。对应的页面在这：
首先从“站点基本信息”切换到“整站内容规则”，然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始，我们发现按默认标签采集回来的标题多了“_网易娱乐”，请双击标题标签或者选种标题标签在点击修改，把“_网易娱乐”添加到排除内容框里，标题标签完成。如图：

点击在新窗口中浏览此图片

3、内容标签讲解。制作采集规则（任务）的任何一个标签最重要的就在于寻找开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的唯一标志，也就是所有的html源码里只能找到一个开始或结束的标志。但是火车采集器并不需要这么作，你要找的只需要是从上到下第一个标志就可以了，我的意思是说，html代码中允许有n个相同的开始（结束，下同）标志，但是只要这个位于我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面，这边以为例，我们发现他的内容从“进入论坛”，因此双击代码测试框，查找需要的代码，如图：

点击在新窗口中浏览此图片

我们可以用这个作为内容开始的标志，不过这样还不完美，请自己在打开几个内容页面，在网页中“右键点击”——“查看源码”，然后对比代码，并提取相同的部分，我以

作为内容开始的标志。
一般来说我们从开始标志到结束标志所采集回来的内容中都会包含有必须排除的内容或广告，或链接。这边我们需要排除的内容是“相关专题>>> 第六届金鹰电视艺术节”。排除的方法是，找到相对应的代码把代码完整的拷贝进内容排除窗口，变动的部分用“（*）”替代。由于这个是整站规则，所以必须多找几个类别，比如现在的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等，在这边我只抽取“明星、图片、电影”作为列子跟大家讲解。找其他的类别只是希望把规则做的通用完美，如果你只要其中的一个分类，比如“图片”那么你直接做这个的规则即可。
这个页面刚好有分页，所以就顺便讲下上下页的设置。他这边的“上一页”和“下一页”是用图片做链接的，所以只要不图片的名字（右键点击对应的图片查看属性，拷贝图片名即可）拷贝进对应的代码框即可，详细的看图片：

作规则需要善于去发现规律性的东西，作到这点采集就没什么问题了。我们要采集示例的地址在这
这板只采集其中的1-3页作为范例。我们发现每个叶面的网址开始前面都包含“过往娱乐热点”结束都是“第1 2……页”，所以请到html源代码里面拷贝对应的代码，到特定区域采集范围中，另外，网址中必须包含“/06/” 这样网址采集就搞定了（简单吧，自己试试看），如下图：

下面是刚才我采集到本地论坛采集测试的两个截屏：

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn