Maison  >  Article  >  Tutoriel CMS  >  Comment utiliser la collection dedecms

Comment utiliser la collection dedecms

(*-*)浩
(*-*)浩original
2019-07-16 15:04:203855parcourir

En prenant le site officiel de Dreamweaver comme exemple, nous collectons la colonne du didacticiel PHP sous la Webmaster Academy et ouvrons l'adresse de la liste http://www.dedecms.com/web-art/PHP_jiaocheng.

Comment utiliser la collection dedecms

Connectez-vous au backend, entrez « Gestion des nœuds de collection », créez un nouveau nœud et sélectionnez le modèle de contenu comme « Article ordinaire ».

1. Définissez les informations de base du nœud (Apprentissage recommandé : tutoriel dedecms)

Remplissez d'abord un nom de nœud qui est facile à retenir, et sélectionnez Le code de la page cible est GB2312 et le mode anti-hotlink n'a pas besoin d'être défini. Étant donné que le site cible n'a aucune restriction, cet élément ne sera pas modifié. Le délai d'expiration par défaut du système est de 10 secondes.

2. Définir les règles d'acquisition d'URL de liste

Dans cette étape, nous devons effectuer certains réglages, obtenir l'adresse de la liste d'articles, revenir à la page de liste des sites cibles, et observez les changements entre les pages, vous constaterez que seuls les nombres après "14_" ont des changements incrémentiels réguliers.

Page d'accueil : http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_1.html

Milieu : http://www.dedecms.com/web-art/PHP_jiaocheng /list_14_(*).html

Dernière page : http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html

Copiez une adresse de radiomessagerie et revenez à "Nouveau Sur la page "Ajouter un nœud de collecte", sélectionnez "Attribut source" comme "URL de liste de génération par lots", collez l'adresse dans "URL correspondante", modifiez le changement de règle comme (*) et entrez 1 dans "Adresse de génération par lots". Paramètres" (*) Pour 172, cela signifie générer toutes les adresses de la première page aux 172 dernières pages de la liste.

Testez-le, dans la boîte de dialogue contextuelle, nous pouvons voir que 172 enregistrements d'adresses sont mis en boucle et que la configuration est fluide. Parfois, nous rencontrons une liste difficile à obtenir, nous pouvons alors copier l'adresse irrégulière dans la zone de texte « URL de liste spécifiée manuellement » pour la collecter.

3. Définir les règles de correspondance des URL d'article

La page source de l'adresse de l'article a été spécifiée ci-dessus. Dans cette étape, vous devez trouver la page d'adresse de l'article qui répond aux exigences. exigences parmi ces pages. Ouvrez une page de liste et observez que la case dans la colonne de gauche contient toutes les adresses dont nous avons besoin. Dans ce cas, les pages clairement distinguées peuvent être filtrées à l'aide du "HTML au début de la région" et du "HTMLL à la fin". de la région".

Cependant, d’autres méthodes peuvent également être utilisées. Déplacez la souris sur différentes adresses de lien et observez l'adresse complète affichée dans le coin inférieur gauche du navigateur. Les adresses dont nous avons besoin contiennent toutes "PHP_jiaocheng/20", puis nous la remplissons dans "Doit contenir".

Les deux méthodes peuvent filtrer les adresses. Lorsqu'il s'agit de pages complexes, elles peuvent être utilisées ensemble. Avec l'ajout de règles régulières, il n'y a presque aucune adresse qui ne puisse être filtrée. Confirmez enfin et passez à l'étape suivante "Règles d'acquisition de contenu Web".

Comment utiliser la collection dedecms

4. Règles d'acquisition de contenu de page Web

Ce qui précède présente la méthode de paramétrage de liste, nous entrons ensuite dans le paramétrage de l'acquisition de contenu. règles, si la collection doit servir, la fonction des une à trois étapes ci-dessus est simplement que l'apéritif sert de guide pour le plat principal suivant. L'étape suivante consiste à présenter comment collecter le contenu de l'article à partir du site cible. Cette étape constitue la partie la plus essentielle de toute la collection.

Continuez en revenant à la liste des tutoriels PHP de DreamWeaver et ouvrez un article dans la liste. Ici, nous prenons l'article "Expressions régulières" comme exemple : http://www.dedecms.com/web -art. /PHP_jiaocheng/20070420/38633.html, copiez l'adresse dans « URL d'aperçu » car tous les articles de DreamWeaver ne sont pas paginés, il n'est pas nécessaire de définir la pagination ici et vous pouvez accéder directement à la page « Projet de collection fixe » ;

(Remarque : si le contenu collecté contient une pagination, il vous suffit de définir les règles de correspondance dans la partie de navigation de pagination. Voici toutes les listes de pagination répertoriées, les pages du haut et du bas ou les listes de pagination incomplètes à définir en fonction le contenu. Oui)

Ce qui suit est le contenu cité :

Toutes les listes paginées répertoriées : Le contenu paginé répertorie tous les liens, comme indiqué ci-dessous

Formulaire de page haut et bas ou liste de pagination incomplète : une seule page affiche le contenu de la pagination actuelle, formulaire de liste d'affichage incomplet

5 Articles de collection fixes

Entrez ici dans le. première étape, nous commençons à analyser le code source de la page. La collection n'est rien de plus que l'analyse de la structure de la page HTML pour obtenir le contenu dont nous avons besoin. Par conséquent, nous devons avoir une certaine compréhension du code HTML et être capables de trouver le contenu requis en visualisant le fichier source de la page. Il est préférable d'ouvrir quelques pages supplémentaires pour analyser et trouver les similitudes.

Il est recommandé d'utiliser l'analyse Dreamweaver. Lors de l'analyse du code de la page, il sera beaucoup plus pratique d'utiliser la fonction de recherche plus souvent. Surtout après avoir trouvé la balise, recherchez s'il y a des doublons pour réduire les erreurs d'analyse.

1) Titre de l'article : Le titre de cette page est "Expression régulière". Copiez-le et appuyez sur Ctrl+F dans Dreamweaver pour rechercher tous les enregistrements. En raison de son caractère unique, nous sélectionnons ici la balise "

Regular Expression

" sur la ligne 105, la copions dans la règle de correspondance du titre de l'article "Fixed Collection Project" et la remplaçons par le mot-clé "[ content]" Titre, finalement

[content]

.

2) Auteur : continuez la recherche avec auteur comme mot-clé. Seules 110 lignes ont des occurrences uniques. Copiez-les avec les balises avant et après toute utilisation des règles de correspondance et utilisez [contenu] pour remplacer l'endroit par. être collectés.

3) Source : Idem que ci-dessus. Recherchez la balise sur la ligne 109, copiez-la et utilisez [content] pour remplacer le lieu à collecter. Si la source contient des balises de lien hypertexte que vous souhaitez supprimer, dans la zone des règles de filtrage, remplissez les règles suivantes pour filtrer :

<a>]*)> <br></a><br>

4) Heure de sortie : Copiez, collez et modifiez les mêmes opérations que ci-dessus à ligne 111.

5) Contenu de l'article : recherchez le début du contenu de l'article. Par exemple, "Première partie" a trouvé la cible à la ligne 118. Cliquez sur la barre d'état

sélectionné. Passez au

précédent, le contenu bleu sélectionne tout le contenu, sachant que
est le véritable conteneur du contenu de l'article. Copiez les balises avant et après le contenu dans les règles de correspondance.

À ce stade, les paramètres de filtrage de contenu sont terminés.

6. Collecte de nœuds

Si votre nœud de collecte est terminé en une seule fois et que le test est réussi, cliquez sur le bouton lorsque vous êtes invité à collecter directement, mais le nœud est écrit avant Oui, vous devez vous rendre sur la « Page de gestion des nœuds » pour vérifier les nœuds à collecter et appuyer sur le bouton « Collecter » pour collecter. Si vous souhaitez collecter du nouveau contenu à partir de tous les nœuds, accédez à la page de collecte de surveillance pour fonctionner.

Vous pouvez définir le nombre de données collectées par page pour chaque collection de pages. De manière générale, ne le définissez pas trop haut, sinon le système pourrait ne pas être en mesure de les traiter et certaines parties ne pourraient pas être collectées. recommandé de ne pas dépasser 15.

Le nombre de threads fait référence au nombre de threads collectés en même temps à chaque fois. Une augmentation du nombre de threads peut accélérer la collecte, mais cela augmentera également l'occupation des ressources du serveur, alors s'il vous plaît. utilisez-le avec prudence. Si le site cible a une limite d'anti-rafraîchissement, vous pouvez la définir ici en fonction du temps limite d'anti-rafraîchissement du site cible. Sinon, la valeur par défaut est de 0 seconde.

Options supplémentaires Ces trois paramètres doivent être faciles à comprendre littéralement, afin que vous puissiez choisir en fonction de vos besoins réels.

Collection terminée.

Pour plus d'articles techniques liés à WordPress, veuillez visiter la colonne tutoriel WordPress pour apprendre !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Article précédent:Comment optimiser les dedecmsArticle suivant:Comment optimiser les dedecms