Maison > Article > développement back-end > Crawler Python pour créer un framework de robot Scrapy dans l'environnement Anaconda
Comment créer un framework de robot Scrapy dans l'environnement Anaconda ? Cet article vous présentera les étapes à suivre pour créer un projet de framework de robot Scrapy dans l'environnement Anaconda. Il vaut la peine d'être lu.
Tutoriel Python Crawler-31-Créer un projet de framework de robot Scrapy
Tout d'abord, cet article est dans l'environnement Anaconda, donc si Anaconda n'est pas installé, veuillez vous rendre sur le site officiel pour télécharger et installez-le d'abord
Adresse de téléchargement Anaconda : https://www.anaconda.com/download/
Création du projet de framework de robot Scrapy
0.
1. Entrez l'environnement Anaconda que vous souhaitez utiliser
Ici, nous avons créé le projet et analysons le rôle des fichiers générés automatiquement
1. trouvé sous [Paramètres] dans [Pycharm] Recherchez
sous [Projet :] 2. Utilisez la commande : activer le nom de l'environnement, par exemple :
activer apprendre
3. Entrez le répertoire souhaité dans lequel le projet scrapy doit être stocké [Note]
4 Nouveau projet : nom du projet scrapy startproject xxx, par exemple :
scrapy startproject new_project5. Capture d'écran de l'opération : 6. Ouvrez le répertoire dans l'explorateur de fichiers et vous constaterez que plusieurs fichiers ont été générés <.>7. Utilisez simplement Pycharm pour ouvrir le répertoire où se trouve le projet
Développement du projet de framework de robot Scrapy
0. pour ouvrir le projet, capture d'écran :
Le processus général de développement du projet :
L'adresse spider/xxspider.py se charge de décomposer et extraire les données téléchargées
1. Clarifiez la cible/le produit qui doit être exploré : écrivez l'élément py
2. Téléchargez et créez un fichier python dans le répertoire spider pour créer un robot :
3. Contenu du magasin : pipelines.py
Fichier Pipeline.py
Lorsque l'objet araignée est fermé, le
L'objet araignée est appelé. Lorsque l'objet araignée est ouvert, le
est appelé pour initialiser certains paramètres nécessaires.
Les éléments extraits par l'araignée sont utilisés comme Les paramètres sont transmis et l'araignée.
est également transmis. Cette méthode doit implémenter
et doit renvoyer un objet Item. L'élément supprimé ne correspondra pas au pipeline suivant
fichier de pipelines
.Une fois que le robot a extrait les données et les a stockées dans l'élément, les données enregistrées dans l'élément nécessitent un traitement ultérieur, tel que le nettoyage, le déparasitage, le stockage, etc.
Le pipeline doit traiter la fonction process_item
process_item
_ init _ : constructeur
open_spider(spider) :
close_spider(spider) :
Répertoire Spider
correspond au fichier sous le dossier spider
_ init _ : initialiser le nom du robot, démarrer la liste _urls
start_requests : générer Demandes d'intersection d'objets Téléchargez et renvoyez la réponse à Scrapy
parse : analysez l'élément correspondant en fonction de la réponse renvoyée, et l'élément entre automatiquement dans le pipeline : si nécessaire, analysez l'URL et l'URL est automatiquement transmise au module de requêtes, et le cycle continue
start_requests : cette méthode peut être appelée une fois, lisez le contenu de start _urls et démarrez le processus de boucle
name : définissez le nom du robot
start_urls : définissez l'URL pour démarrer le premier lot d'exploration
allow_domains : liste des noms de domaine que l'araignée est autorisée à explorer
start_request(self) : appelé une seule fois
analyse : codage de détection
journal : enregistrement du journal
Recommandations associées :
Explication détaillée des exemples scrapy du framework de robot d'exploration PythonTutoriel d'introduction au robot d'exploration Scrapy Four Spider (crawler) Un exemple simple d'écriture d'un robot d'exploration Web à l'aide du framework Scrapy de PythonCe qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!