Maison  >  Article  >  développement back-end  >  Crawler Python pour créer un framework de robot Scrapy dans l'environnement Anaconda

Crawler Python pour créer un framework de robot Scrapy dans l'environnement Anaconda

不言
不言original
2018-09-07 15:38:426697parcourir

Comment créer un framework de robot Scrapy dans l'environnement Anaconda ? Cet article vous présentera les étapes à suivre pour créer un projet de framework de robot Scrapy dans l'environnement Anaconda. Il vaut la peine d'être lu.

Tutoriel Python Crawler-31-Créer un projet de framework de robot Scrapy

Tout d'abord, cet article est dans l'environnement Anaconda, donc si Anaconda n'est pas installé, veuillez vous rendre sur le site officiel pour télécharger et installez-le d'abord

Adresse de téléchargement Anaconda : https://www.anaconda.com/download/

Création du projet de framework de robot Scrapy

0.

1. Entrez l'environnement Anaconda que vous souhaitez utiliser

Ici, nous avons créé le projet et analysons le rôle des fichiers générés automatiquement

1. trouvé sous [Paramètres] dans [Pycharm] Recherchez

Crawler Python pour créer un framework de robot Scrapy dans lenvironnement Anaconda

sous [Projet :] 2. Utilisez la commande : activer le nom de l'environnement, par exemple :

activer apprendre

3. Entrez le répertoire souhaité dans lequel le projet scrapy doit être stocké [Note]

4 Nouveau projet : nom du projet scrapy startproject xxx, par exemple :

scrapy startproject new_project

5. Capture d'écran de l'opération :

Crawler Python pour créer un framework de robot Scrapy dans lenvironnement Anaconda

6. Ouvrez le répertoire dans l'explorateur de fichiers et vous constaterez que plusieurs fichiers ont été générés <.>

Crawler Python pour créer un framework de robot Scrapy dans lenvironnement Anaconda7. Utilisez simplement Pycharm pour ouvrir le répertoire où se trouve le projet

Développement du projet de framework de robot Scrapy

0. pour ouvrir le projet, capture d'écran :


Crawler Python pour créer un framework de robot Scrapy dans lenvironnement Anaconda
Le processus général de développement du projet :


L'adresse spider/xxspider.py se charge de décomposer et extraire les données téléchargées

1. Clarifiez la cible/le produit qui doit être exploré : écrivez l'élément py

2. Téléchargez et créez un fichier python dans le répertoire spider pour créer un robot :


3. Contenu du magasin : pipelines.py

Fichier Pipeline.py


Lorsque l'objet araignée est fermé, le

L'objet araignée est appelé. Lorsque l'objet araignée est ouvert, le

est appelé pour initialiser certains paramètres nécessaires.

Les éléments extraits par l'araignée sont utilisés comme Les paramètres sont transmis et l'araignée.

est également transmis. Cette méthode doit implémenter

et doit renvoyer un objet Item. L'élément supprimé ne correspondra pas au pipeline suivant

fichier de pipelines

.

Une fois que le robot a extrait les données et les a stockées dans l'élément, les données enregistrées dans l'élément nécessitent un traitement ultérieur, tel que le nettoyage, le déparasitage, le stockage, etc.

Le pipeline doit traiter la fonction process_item

process_item


_ init _ : constructeur


open_spider(spider) :


close_spider(spider) :


Répertoire Spider

correspond au fichier sous le dossier spider

_ init _ : initialiser le nom du robot, démarrer la liste _urls

start_requests : générer Demandes d'intersection d'objets Téléchargez et renvoyez la réponse à Scrapy

parse : analysez l'élément correspondant en fonction de la réponse renvoyée, et l'élément entre automatiquement dans le pipeline : si nécessaire, analysez l'URL et l'URL est automatiquement transmise au module de requêtes, et le cycle continue

start_requests : cette méthode peut être appelée une fois, lisez le contenu de start _urls et démarrez le processus de boucle

name : définissez le nom du robot

start_urls : définissez l'URL pour démarrer le premier lot d'exploration

allow_domains : liste des noms de domaine que l'araignée est autorisée à explorer

start_request(self) : appelé une seule fois

analyse : codage de détection

journal : enregistrement du journal

Recommandations associées :

Explication détaillée des exemples scrapy du framework de robot d'exploration Python

Tutoriel d'introduction au robot d'exploration Scrapy Four Spider (crawler)

Un exemple simple d'écriture d'un robot d'exploration Web à l'aide du framework Scrapy de Python

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn