Module d'acquisition



Opérations communes du module

Nom de l'opérationDescription
Processus de collecte détaillé Aucun
Autre description de la fonction Aucun

Instructions :

La fonction de collecte d'articles consiste à obtenir à distance le contenu de la page Web cible via un programme, puis à le stocker dans la base de données du serveur après analyse et traitement des règles locales.

Le système de collecte d'articles renverse le modèle et le processus de collecte traditionnels. Les règles de collecte sont séparées de l'interface de collecte. Seul le personnel possédant des connaissances techniques de base peut définir les règles pertinentes. Les éditeurs n'ont pas besoin de comprendre trop de règles techniques détaillées. Il leur suffit de sélectionner la liste des articles qu'ils souhaitent collecter, puis ils peuvent facilement terminer l'opération de collecte de données, tout comme la publication d'articles.
1. Processus de collecte
Pour faire simple, il y a trois étapes :
1. Ajoutez un point de collecte et renseignez les règles de collecte.
2. Collectez les URL et le contenu
3. Publiez du contenu dans les colonnes désignées
Prenez la collection de Sina News (http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml) comme exemple pour présenter le processus détaillé.
Exemple de description :
Objectif : collecter les actualités de Sina dans la colonne Actualités internationales du système V9.
URL cible : http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
1. Ajoutez des points de collecte
1.1 Configuration des règles d'URL
70.jpg
                                                                           pour ajouter un point de collecte - Schéma de configuration des règles d'URL 1
Vérifiez le code source de l'URL cible à collecter et trouvez le point de départ et le point final de l'URL à collecter (Ces deux points doivent être uniques dans tout le code source). Affinez davantage la portée de recherche de l’URL de la collection.
71.jpg
                                                                                               pour ajouter un point de collecte - Schéma de configuration des règles d'URL 2
Testez si vos règles de collecte d'URL sont correctes, comme indiqué dans l'image ci-dessous
72.jpg
1.2 Configuration des règles de contenu
Les règles de contenu semblent ici compliquées, mais elles sont en réalité très simples Pour faciliter l'explication, nous ne collectons que deux champs : titre et contenu. URL de collecte de contenu :
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml règles de collecte de contenu, veuillez ouvrir cette URL, puis à droite -cliquez sur une page vierge -> Afficher le fichier source pour rechercher le titre et la limite de départ du contenu.
Configuration de la collection de titres :
Obtenez le titre de la page Web <title></title> et supprimez les caractères inutiles. Comme indiqué ci-dessous
73.jpg
Configuration de la collection de contenu :
Sur la dernière page de Sina News, le contenu de l'actualité est inclus entre <!-- début du contenu du texte --> <!-- fin du contenu du texte -->, et ces deux nœuds se trouvent dans le code source de la page entière. A un caractère unique. Vous pouvez donc l'utiliser en règle générale pour obtenir du contenu. et filtrer le contenu. Comme indiqué ci-dessous
74.jpg
1.3 Règles personnalisées
1.4 Configuration avancée
Vous pouvez définir s'il faut télécharger des images sur le serveur, s'il faut imprimer des filigranes et d'autres configurations.
75.jpg
2. Collectez les URL et le contenu
Une fois les règles de collecte configurées, l'URL peut être collectée, puis le contenu peut être collecté.
76.jpg
3. Publiez le contenu dans la colonne désignée
77.jpg
78.jpg
Sélectionnez la colonne importée
79.jpg
Définissez la relation correspondante entre le contenu collecté et les champs de la base de données. Soumettez les données pour le stockage. Veuillez patienter pendant cette période. Il sera automatiquement redirigé une fois terminé. À ce stade, un simple processus de collecte est terminé.
De nombreuses autres fonctionnalités vous attendent.