首页

CMS教程

DEDECMS

dedecms采集怎么用

(*-*)浩

Jul 16, 2019 pm 03:04 PM

dedecms

以织梦官方站为例，我们采集站长学院下的PHP教程栏目，打开列表地址http://www.dedecms.com/web-art/PHP_jiaocheng。

dedecms采集怎么用

登录后台，进入“采集节点管理”，新建一个节点，选择内容模型为“普通文章”。

1.设置节点基本信息 （推荐学习：dedecms教程）

先填写一个方便记忆的节点名称，选择目标页面编码为GB2312，防盗链模式不做设置，因目标站没做限制，这一项就不做修改，系统默认超时时间10秒。

2.设置列表网址获取规则

这一步我们要做些设置，获取文章列表地址，回到目标站列表页，观察分页间的变化，可以发现只有“14_”后的数字有规律的递增变化。

首页：http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_1.html

中间：http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_(*).html

末页：http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html

复制一个分页地址，回到“新增采集节点”页面，选择“来源属性”为“批量生成列表网址”，把粘贴地址到“匹配网址”中，修改规律变化处为(*)，“批量生成地址设置”处(*)输入1到172，这里的意思是生成出列表第一页到最后172页的所有地址。

测试一下，在弹出框中我们可以看到循环出172条地址记录，很顺利的就设置好了。有时候会碰到较难获取的列表，那我们可以把把没规律的地址复制到”手工指定列表网址“文本框中来采集。

3.设置文章网址匹配规则

上面指定好了文章地址来源页，这一步就需要在这些页面中找出符合要求的文章地址页了。打开一个列表页面观察，左栏的方框中包含了我们需要的全部地址，这种情况区分明显的页面，可以利“区域开始的HTML”和“区域结束的HTMLL”设置进行过滤。

不过也可以使用其他方法。把鼠标移到各处链接地址，观察浏览器左下角显示的完整地址，我们需要的地址都包含“PHP_jiaocheng/20”，那我们把它填写到“必须包含”中。

两种方法都能够过滤出地址，碰上复杂页面，可以配合起来使用，加上正则，几乎没有筛选不出的地址，与下图对照。最后确定，进入下一步“网页内容获取规则”。

4.网页内容获取规则

上面介绍了列表设置的方法，接下来我们进入内容获取规则的设置，如果说采集是上菜的话，上面一到三步的作用，只是开胃菜为下面的主菜做引。接下来是介绍如何从目标站把文章内容采集过来，这一步是是整个采集中最为核心的部分。

继续回到织梦的PHP教程列表，随便打开一篇列表中的文章，这里我们以《正则表达式》这篇文章为例：http://www.dedecms.com/web-art/PHP_jiaocheng/20070420/38633.html ，把该地址复制到“预览网址”；因为织梦所有文章都没分页，所以这里的分页就无需设置，直接进入“固定的采集项目”页面

（注：如果采集的内容含有分页，只需要将分页导航部分的匹配规则设置完成即可，这里有全部列出的分页列表、上下页形式或不完整的分页列表根据内容进行设置即可）

以下为引用的内容：

全部列出的分页列表：分页内容列出所有的链接，如下图所示

上下页形式或不完整的分页列表：单页显示当前分页内容，不完全显示的列表形式

5. 固定的采集项目

进入这一步，就开始对页面源码进行分析了，采集无非是分析HTML页面的结构，从而获取我们所需的内容。所以要求我们对HTML代码有一定的认识，能通过查看页面源文件，找出需要的内容，最好多开几个页面进行分析，找出相同处。

推荐大家使用Dreamweaver分析。在分析页面代码的时候，多使用搜索功能，会方便很多，特别是找到标签后，搜索一下看有无重复以减少分析错误。

1) 文章标题：这个页面的标题是“正则表达式”复制下它，在Dreamweaver按Ctrl+F键搜索全部，有30项记录。因为唯一性，这里我们选择105行这段“

正则表达式

”标签，复制到“固定采集项目”文章标题的匹配规则中，并用关键字“[内容]”替换标题，最终为

[内容]

。

2) 作者：以作者为关键字继续搜索，只有110行有唯一的出现，连同alluse前后的标签一起复制到匹配规则中，使用[内容]替换要采集处。

3) 来源：同上操作在109行找到标签，复制过去，使用[内容]替换要采集处。若来源包含超链接标签想去掉，则在过滤规则框，填写如下规则过滤掉：

<a([^>]*)> <br></a><br>

4) 发布时间：同上操作在111行处进行复制粘贴和修改。

5) 文章内容：搜索文章内容的开始部分，例如“第一部分”在118行发现目标，点击状态栏

发现未能全部选中文章内容，继续前一个，蓝色内容选中全部内容，知道

为文章内容的真正容器。复制内容前后标签，到匹配规则中。

至此，内容的过滤都设置都完成了。

6. 节点采集

如果你的采集节点是一气呵成而且测试成功的话，按提示点击按钮，就可以直接采集了，但是节点是之前写的，就需到“节点管理页”勾选需采集节点，按“采集”按钮进行采集了。若你想采集所有节点的新内容，那就到监控采集页面进行操作吧。

每页采集可以设置每页采集的数据条数，一般来说不要设置太大，否则有可能导致系统处理不过来而部分采集不到，建议别超过15。

线程数是指每次有多少个线程同时进行采集，线程数的增加可以加快采集速度，但相应的会增加服务器资源的占用，所以请慎用。假若目标站点有防刷新限制，此处就可以根据目标站点的防刷新限制时间进行设置，假如没有就默认0秒可以了。

附加选项这三个设置从字面上应该可以很容易理解，这就根据你的实际需要进行选择了。

采集完成。

更多wordpress相关技术文章，请访问wordpress教程栏目进行学习！

以上是dedecms采集怎么用的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

dedecms怎么增加多语言Feb 27, 2023 am 09:21 AM

dedecms增加多语言的方法：1、进入dedecms后台，创建封面栏目；2、将封面栏目“常规选项”的文件保存目录设置为cn或者en；3、将封面栏目“高级选项”的列表模板设置为“cn_index.htm”或者“en_index.htm”；4、单独调用每种语言的封面栏目和每种语言下的导航栏目即可。

织梦cms是什么语言写的Feb 21, 2023 am 09:45 AM

织梦cms是用PHP语言写的。织梦CMS（DedeCMS）是一个PHP开源网站管理系统，作用是构建中小型网站；它采用PHP+MySQL技术开发，可同时使用于windows、linux、unix平台。

dedecms是什么语言Feb 24, 2023 am 09:46 AM

dedecms是PHP语言开发的；dedecms中文全称是织梦内容管理系统，是一个PHP开源网站管理系统；dedecms基于PHP和MySQL技术开发，可同时使用于Windows、Linux、Unix平台。

dedecms怎么删除栏目Jul 13, 2023 pm 04:31 PM

dedecms删除栏目的方法：1、登录后台管理；2、进入“栏目管理”，可以看到当前网站所有栏目；3、选择要删除的栏目；4、将鼠标悬停在栏目名称上，删除栏目；5、点击“确认”按钮以继续删除操作；6、删除成功。

2023年织梦dedeCMS视频教程推荐Oct 25, 2019 pm 01:56 PM

织梦内容管理系统(DedeCMS) 以简单、实用、开源而闻名，是国内最知名的PHP开源网站管理系统，也是使用用户最多的PHP类CMS系统，在经历多年的发展，目前的版本无论在功能，还是在易用性方面，都有了长足的发展和进步。

火车头dedecms出现乱码怎么办Jul 19, 2023 pm 02:19 PM

火车头dedecms出现乱码解决方法：1、检查数据库编码；2、修改dedecms配置文件；3、检查浏览器编码设置；4、清理缓存和临时文件；5、寻求专业帮助。

dedecms是干什么的Feb 22, 2023 am 09:14 AM

dedecms是指织梦内容管理系统，是一个PHP开源网站管理系统，用于个人网站或中小型门户的构建；dedecms是基于PHP和MySQL技术开发，可同时使用于Windows、Linux、Unix平台。

dedecms无法修改怎么解决Jun 25, 2023 pm 04:53 PM

dedecms无法修改的解决方法是：1、检查文件夹和文件的读写权限是否正确；2、使用最新版本的DedeCMS，并保持数据库、插件和主题等组件的版本与CMS核心匹配；3、添加了不兼容的插件或主题，导致DedeCMS无法正常工作；4、检查PHP日志和调试信息以找出问题并解决。

See all articles

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

正则表达式

[内容]

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

禅工作室 13.0.1

记事本++7.3.1

SecLists

ZendStudio 13.5.1 Mac

EditPlus 中文破解版

热门话题