搜索
首页CMS教程DEDECMSdedecms采集怎么用
dedecms采集怎么用Jul 16, 2019 pm 03:04 PM
dedecms

以织梦官方站为例,我们采集站长学院下的PHP教程栏目,打开列表地址http://www.dedecms.com/web-art/PHP_jiaocheng。 

dedecms采集怎么用

登录后台,进入“采集节点管理”,新建一个节点,选择内容模型为“普通文章”。 

1.设置节点基本信息    (推荐学习:dedecms教程

先填写一个方便记忆的节点名称,选择目标页面编码为GB2312,防盗链模式不做设置,因目标站没做限制,这一项就不做修改,系统默认超时时间10秒。 

2.设置列表网址获取规则 

这一步我们要做些设置,获取文章列表地址,回到目标站列表页,观察分页间的变化,可以发现只有“14_”后的数字有规律的递增变化。 

首页:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_1.html 

中间:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_(*).html 

末页:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html 

复制一个分页地址,回到“新增采集节点”页面,选择“来源属性”为“批量生成列表网址”,把粘贴地址到“匹配网址”中,修改规律变化处为(*),“批量生成地址设置”处(*)输入1到172,这里的意思是生成出列表第一页到最后172页的所有地址。 

测试一下,在弹出框中我们可以看到循环出172条地址记录,很顺利的就设置好了。有时候会碰到较难获取的列表,那我们可以把把没规律的地址复制到”手工指定列表网址“文本框中来采集。 

3.设置文章网址匹配规则 

上面指定好了文章地址来源页,这一步就需要在这些页面中找出符合要求的文章地址页了。打开一个列表页面观察,左栏的方框中包含了我们需要的全部地址,这种情况区分明显的页面,可以利“区域开始的HTML”和“区域结束的HTMLL”设置进行过滤。 

不过也可以使用其他方法。把鼠标移到各处链接地址,观察浏览器左下角显示的完整地址,我们需要的地址都包含“PHP_jiaocheng/20”,那我们把它填写到“必须包含”中。 

两种方法都能够过滤出地址,碰上复杂页面,可以配合起来使用,加上正则,几乎没有筛选不出的地址,与下图对照。最后确定,进入下一步“网页内容获取规则”。

dede-1.jpg

4.网页内容获取规则 

上面介绍了列表设置的方法,接下来我们进入内容获取规则的设置,如果说采集是上菜的话,上面一到三步的作用,只是开胃菜为下面的主菜做引。接下来是介绍如何从目标站把文章内容采集过来,这一步是是整个采集中最为核心的部分。 

继续回到织梦的PHP教程列表,随便打开一篇列表中的文章,这里我们以《正则表达式》这篇文章为例:http://www.dedecms.com/web-art/PHP_jiaocheng/20070420/38633.html ,把该地址复制到“预览网址”;因为织梦所有文章都没分页,所以这里的分页就无需设置,直接进入“固定的采集项目”页面 

(注:如果采集的内容含有分页,只需要将分页导航部分的匹配规则设置完成即可,这里有全部列出的分页列表、上下页形式或不完整的分页列表根据内容进行设置即可)

以下为引用的内容:

全部列出的分页列表:分页内容列出所有的链接,如下图所示

上下页形式或不完整的分页列表:单页显示当前分页内容,不完全显示的列表形式

5. 固定的采集项目 

进入这一步,就开始对页面源码进行分析了,采集无非是分析HTML页面的结构,从而获取我们所需的内容。所以要求我们对HTML代码有一定的认识,能通过查看页面源文件,找出需要的内容,最好多开几个页面进行分析,找出相同处。 

推荐大家使用Dreamweaver分析。在分析页面代码的时候,多使用搜索功能,会方便很多,特别是找到标签后,搜索一下看有无重复以减少分析错误。 

1) 文章标题:这个页面的标题是“正则表达式”复制下它,在Dreamweaver按Ctrl+F键搜索全部,有30项记录。因为唯一性,这里我们选择105行这段“

正则表达式

”标签,复制到“固定采集项目”文章标题的匹配规则中,并用关键字“[内容]”替换标题,最终为

[内容]

。 

2) 作者:以作者为关键字继续搜索,只有110行有唯一的出现,连同alluse前后的标签一起复制到匹配规则中,使用[内容]替换要采集处。 

3) 来源:同上操作在109行找到标签,复制过去,使用[内容]替换要采集处。若来源包含超链接标签想去掉,则在过滤规则框,填写如下规则过滤掉: 

<a([^>]*)> <br></a><br>

4) 发布时间:同上操作在111行处进行复制粘贴和修改。 

5) 文章内容:搜索文章内容的开始部分,例如“第一部分”在118行发现目标,点击状态栏

发现未能全部选中文章内容,继续前一个,蓝色内容选中全部内容,知道

为文章内容的真正容器。复制内容前后标签,到匹配规则中。 

至此,内容的过滤都设置都完成了。

6. 节点采集 

如果你的采集节点是一气呵成而且测试成功的话,按提示点击按钮,就可以直接采集了,但是节点是之前写的,就需到“节点管理页”勾选需采集节点,按“采集”按钮进行采集了。若你想采集所有节点的新内容,那就到监控采集页面进行操作吧。 

每页采集可以设置每页采集的数据条数,一般来说不要设置太大,否则有可能导致系统处理不过来而部分采集不到,建议别超过15。 

线程数是指每次有多少个线程同时进行采集,线程数的增加可以加快采集速度,但相应的会增加服务器资源的占用,所以请慎用。假若目标站点有防刷新限制,此处就可以根据目标站点的防刷新限制时间进行设置,假如没有就默认0秒可以了。 

附加选项这三个设置从字面上应该可以很容易理解,这就根据你的实际需要进行选择了。 

采集完成。

更多wordpress相关技术文章,请访问wordpress教程栏目进行学习!

以上是dedecms采集怎么用的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
dedecms怎么增加多语言dedecms怎么增加多语言Feb 27, 2023 am 09:21 AM

dedecms增加多语言的方法:1、进入dedecms后台,创建封面栏目;2、将封面栏目“常规选项”的文件保存目录设置为cn或者en;3、将封面栏目“高级选项”的列表模板设置为“cn_index.htm”或者“en_index.htm”;4、单独调用每种语言的封面栏目和每种语言下的导航栏目即可。

织梦cms是什么语言写的织梦cms是什么语言写的Feb 21, 2023 am 09:45 AM

织梦cms是用PHP语言写的。织梦CMS(DedeCMS)是一个PHP开源网站管理系统,作用是构建中小型网站;它采用PHP+MySQL技术开发,可同时使用于windows、linux、unix平台。

dedecms是什么语言dedecms是什么语言Feb 24, 2023 am 09:46 AM

dedecms是PHP语言开发的;dedecms中文全称是织梦内容管理系统,是一个PHP开源网站管理系统;dedecms基于PHP和MySQL技术开发,可同时使用于Windows、Linux、Unix平台。

dedecms怎么删除栏目dedecms怎么删除栏目Jul 13, 2023 pm 04:31 PM

dedecms删除栏目的方法:1、登录后台管理;2、进入“栏目管理”,可以看到当前网站所有栏目;3、选择要删除的栏目;4、将鼠标悬停在栏目名称上,删除栏目;5、点击“确认”按钮以继续删除操作;6、删除成功。

2023年织梦dedeCMS视频教程推荐2023年织梦dedeCMS视频教程推荐Oct 25, 2019 pm 01:56 PM

织梦内容管理系统(DedeCMS) 以简单、实用、开源而闻名,是国内最知名的PHP开源网站管理系统,也是使用用户最多的PHP类CMS系统,在经历多年的发展,目前的版本无论在功能,还是在易用性方面,都有了长足的发展和进步。

火车头dedecms出现乱码怎么办火车头dedecms出现乱码怎么办Jul 19, 2023 pm 02:19 PM

火车头dedecms出现乱码解决方法:1、检查数据库编码;2、修改dedecms配置文件;3、检查浏览器编码设置;4、清理缓存和临时文件;5、寻求专业帮助。

dedecms是干什么的dedecms是干什么的Feb 22, 2023 am 09:14 AM

dedecms是指织梦内容管理系统,是一个PHP开源网站管理系统,用于个人网站或中小型门户的构建;dedecms是基于PHP和MySQL技术开发,可同时使用于Windows、Linux、Unix平台。

dedecms无法修改怎么解决dedecms无法修改怎么解决Jun 25, 2023 pm 04:53 PM

dedecms无法修改的解决方法是:1、检查文件夹和文件的读写权限是否正确;2、使用最新版本的DedeCMS,并保持数据库、插件和主题等组件的版本与CMS核心匹配;3、添加了不兼容的插件或主题,导致DedeCMS无法正常工作;4、检查PHP日志和调试信息以找出问题并解决。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前By尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
4 周前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能