Maison > Article > Tutoriel CMS > Comment écrire des règles de collecte dedecms
En tant que système d'articles couramment utilisé, le système Dreamweaver est relativement facile à utiliser. Parmi les nombreuses fonctions, le système de collecte peut être un casse-tête pour certains novices, comme des paramètres incorrects de zone de collecte, une édition incorrecte des règles de collecte et des espaces vides après la collecte. Aujourd'hui, nous allons expliquer en détail certains des problèmes les plus faciles à rencontrer.
Tout d'abord, nous nous connectons au backend, cliquons sur Collection - Collection Node Management et entrons dans l'interface de configuration de la gestion des collections
Il y a deux options ici, l'une consiste à modifier les nœuds d'origine (principalement en raison d'erreurs de configuration précédentes qui ont conduit à l'impossibilité de collecter ou d'autres paramètres), l'une consiste à ajouter directement des nœuds, dont la plupart sont principalement de nouveaux nœuds, cliquez, puis l'étape suivante, sélectionnez « Article ordinaire » pour confirmer.
Remplissez ensuite le nom du nœud (il est recommandé que ce soit un nom lié à la colonne pour éviter les erreurs lors de l'importation). Ensuite le premier point clé : l’encodage de la page cible. Vous devez renseigner le code de la page Web cible, pas votre propre page Web. Méthode d'affichage : ouvrez n'importe quelle page du site Web cible, faites un clic droit sur l'espace vide - Afficher le code source (l'encodage se trouve généralement dans les premières lignes)
Puis remplissez dans la liste des règles, l'une est la génération d'URL par lots qui convient généralement à celles qui ont des règles strictes ou qui doivent être collectées de haut en bas. Par exemple, nous ciblons cette colonne :
Liste de la première page : http://youqubu.cn/tansuo/list_5_1.html
Liste de la deuxième page : http://youqubu.cn/tansuo. /list_5_2.html.
La chose la plus importante à propos de cette règle de liste est de trouver des similitudes et des différences. Remplissez les similitudes et complétez les différences avec des symboles correspondants, qui sont des variables. En fait, à partir de cette comparaison, nous pouvons savoir que http://youqubu.cn/tansuo/list_5_.html sont tous identiques, donc la variable est 1.2.3.4. . L'URL correspondante est donc :
http://youqubu.cn/tansuo/list_5_(*).html.
L'autre règle de liste consiste à spécifier manuellement l'URL de la liste, qui est la plus populaire. Remplissez simplement la page de liste de tous les objets que vous devez collecter. (Plus adapté pour collecter uniquement certaines pages ou pages avec plus de variables)
Remarque : Les pages d'accueil des colonnes de nombreux sites Web sont affichées sous la forme de http://xxx.xx/xxx/. Vous pouvez les comparer avec. ce qui précède Il a été constaté que les éléments variables suivants manquaient. La façon de trouver les éléments variables est donc la suivante : cliquez sur la page suivante de la liste. Si vous n'êtes toujours pas clair, cliquez sur la page suivante. En comparant les deuxième et troisième pages de la liste, nous pouvons également trouver les éléments variables à l'étape. 4.
Cette étape consiste à obtenir toutes les adresses des articles sous la liste. Nous devons obtenir toutes les adresses des pages d'articles de la page de liste. Prenons la liste sur http://youqubu.cn/tansuo/list_5_1.html comme exemple. Copiez le titre du premier article sous la liste, puis faites un clic droit sur l'espace vide de la page de liste - Affichez le code source, appuyez sur ctrl+F pour rechercher, collez le titre que vous venez de copier et localisez la position dans le code source de le texte. En fait, il existe certaines règles à cet effet. Ensuite, nous trouvons quelle partie du code source est unique et peut contenir les adresses de tous les articles de la liste (remarque : la recherche du code de départ doit commencer à partir du titre du premier article de la liste et remonter, et la recherche du code de fin doit doit commencer par le titre du premier article de la liste. Commencez à regarder vers le bas). Cela peut être vu à partir de ce code source. Code de début :
下一步的缩略图我们可以选择不采集,因为织梦本身是会把第一张图片默认为缩略图的,这个看实际情况。下面是对网址的筛选:包含的意思是:这个步骤六选择的代码区间的文章网址只有包含了这部分才会被采集(这里有两种情况:1。譬如上面演示的地址,它是以超链接的形式,不是完整的网址,所以这种情况千万不要填写包含。2.就是列表涉及到多个链接的,比如标签这样的,最好填写包含,填写你想要的网址有的,不想要的网址没有的部分)。然后下一步。这边会列出因为上面填写的规则所采集到的列表页中文章的网址。如果是空白:我们可以先删除必须包含和不能包含,点击下一步测试,如果能采集到连接但是很乱,那就是你这步包含相关填错了;如果这样操作还是没有采集到东西,那就是“包含文章网址区域”这步填写错了。
分页规则也主要分两种:一种是直接填写默认代码:{path}{file}_{p}{ext} 然后选择分页列表规则(如下图)。 另一种是打开目标文章页,找到有上下几页的文章,右键查看源码,找到这部分代码,填写方式和文章页网址区域的方法一样,然后右边选择:全部列出的分页列表。(第二种方法要注意,因为涉及到多页,填写首尾代码的时候一定要多翻几张,然后查看源代码,把你认为共同的代码在多个页面查找下,因为可能出现你选择的代码在首页是可以找到的,在2.3四页后面就没有了,那就说明这个不是公用代码,你填上去也会导致采集不到分页的)
分页设置好后,我们主要设置标题规则和内容规则。时间规则和作者、来源规则这里不细说,这个不是所有人都需要的,这步谈到的规则都可以获取区间的方式得到内容或者填入固定的词语。首先是标题规则:我们以:http://youqubu.cn/tansuo/362.html。这个文章页来做说明。我们先复制标题名字,然后在源代码中查找。示例中查找我们可以发现这里有五个相同的部分,而且冲对比中发现,这个其实是有两种写法的。1.完全包含这个文字的代码区间,不带其他文字:
Le contenu suivant est le même. Ce qu'il faut noter ici, c'est que le code publicitaire. ou Pour bloquer les choses inutiles, des « règles de filtrage » sont utilisées ici. Dans des circonstances normales, à l'exception d'IMG, tout le reste peut être filtré. Si vous ne voulez même pas d'images, sélectionnez-les toutes.
Enfin, cliquez sur Enregistrer pour commencer à collecter des pages Web. Une fois la collecte terminée, nous cliquons sur Collection-Collection Node Management. Après avoir entré, cochez la case devant le nœud que nous venons de collecter, puis cliquez sur "Exporter les données", sélectionnez la colonne que vous souhaitez importer et confirmez. (Il est préférable de définir un titre répétitif lors de la dernière étape de configuration)
Pour plus d'articles techniques liés à DedeCMS, veuillez visiter la colonne Tutoriel DedeCMS à apprendre !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!