咔咔不会用python,也没打算为了爬点东西就去学python。时间成本不允许我这样做
于是咔咔使用了一款工具,火车头采集工具
这款工具学会了很简单,不会的全是问题
下来咔咔会把这个工具的从开始到结束的实现流程写出来此篇文章用时俩天完成,咔咔也是从一个小白摸索过来的,网上的文章我是看的一头雾水,就写了一篇,希望可以帮助到大家
@TOC
基础准备
1.下载火车头采集工具
火车头工具有可能需要登录,自己看
2.认识火车头
- web发布配置:是使用接口进行发布
- web发布模块:是使用接口发布的参数,相当于是一个发布模板而已
- 数据库发布配置和数据库发布模块也是同理
- 但是经常使用的就是web发布的这俩个模块,数据库的自己试试就可以了
2-1.新建采集任务
2-2.设置网址采集规则
起始网址就是需要采集的地址
采集案例
1.配置采集规则
先用电影类型这个链接
然后查看网址规则,我们会发现这个就是我们需要的采集地址
然后将采集网址和采集规则写到配置里边
<a target="_blank" href="[参数]" class="subject_link(*)">
点击网址测试采集,然后这些网址就是我们需要采集的内容页网址
2.获取图片
可以看到他的图片代码是这个样子的
开始写规则
<div id="(*)" class="message"><p><img src="[参数]"
3.获取原名
这一块可以看到的是他的标签都是一样的,那么设置的采集规则也就是一致的
设置规则就如下
4.标签相同的怎么采集
这里可以看到俩个html结构都是一样的,但是我们只想要第二个结构里边的内容
采集方案:把第一个结构的结尾带着即可
5.以下就是需要采集的所有内容
基本原理差不多,只要是功能的熟悉即可
6.在简单的说一下图片下载这个问题吧!
案例网址这里就不提供了,可以跟着本案例进行一步一步操作即可
比如说我们现在需要采集这张图片
然后我们需要查看一下源码
配置规则并进行测试
查看结果,可以看到图片已经下载下来了
配置文件下载,双击唐嫣图片这个标签,然后点击文件下载
然后将这俩个选择,在测试一下
这个时候就可以看到图片已经下载到本地了
7.如何采集一个网页的多张图片
以上就是采集数据的一个简单流程,具体的配置规则和使用自己多点点多测测都可以实现的
是在不行的话联系咔咔哄!
配置使用接口一边采集一边同时发布到自己的数据
1.配置发布文件
点击web发布模块
配置接口地址和数据库字段名
表单名:就是数据库字段
表单值:就是在火车头添加的获取字段
然后点击保存即可
然后到发布规则里边在把发布配置添加进去
这个就是添加完成的样子
然后在点击web发布配置就出现了咱们刚刚配置的发布文件
2.测试当前发布
这一步就需要我们来写接口了
同步的还需要建立数据库
写入库接口
双击BT之家发布,然后点击测试当前发布
点击测试即可以看到我在控制器打印的123
接下来就是数据入库了,这步就不写了,自己用的什么语言就写什么代码即可
这就是火车头采集的所有流程,如有什么疑问的联系下方联系方式