Maison >développement back-end >Tutoriel Python >Framework Scrapy et intégration de bases de données : comment mettre en œuvre le stockage dynamique des données ?

Framework Scrapy et intégration de bases de données : comment mettre en œuvre le stockage dynamique des données ?

PHPzoriginal: 2023-06-22 10:35:191460parcourir

Avec la quantité croissante de données Internet, la manière d'explorer, de traiter et de stocker les données rapidement et avec précision est devenue un problème clé dans le développement d'applications Internet. En tant que framework d'exploration efficace, le framework Scrapy est largement utilisé dans divers scénarios d'exploration de données en raison de ses méthodes d'exploration flexibles et rapides.

Cependant, le simple fait d'enregistrer les données analysées dans un fichier ne peut pas répondre aux besoins de la plupart des applications. Parce que dans les applications actuelles, la plupart des données sont stockées, récupérées et manipulées via des bases de données. Par conséquent, comment intégrer le framework Scrapy à la base de données pour obtenir un stockage rapide et dynamique des données est devenu un nouveau défi.

Cet article utilisera des cas réels pour présenter comment le framework Scrapy intègre des bases de données et implémente le stockage dynamique de données pour référence par les lecteurs dans le besoin.

1. Préparation

Avant l'introduction, il est supposé que les lecteurs de cet article ont déjà compris les connaissances de base du langage Python et certaines méthodes d'utilisation du framework Scrapy, et peuvent utiliser le langage Python pour effectuer des opérations de base de données simples. Si vous n'êtes pas familier avec cela, il est recommandé d'acquérir d'abord les connaissances pertinentes, puis de lire cet article.

2. Sélectionnez la base de données

Avant de commencer à intégrer le framework Scrapy à la base de données, nous devons d'abord choisir une base de données appropriée pour stocker les données que nous avons explorées. Les bases de données actuellement couramment utilisées incluent MySQL, PostgreSQL, MongoDB et de nombreuses autres options.

Ces bases de données ont chacune leurs propres avantages et inconvénients, choisissez en fonction de vos besoins. Par exemple, lorsque la quantité de données est faible, il est plus pratique d'utiliser la base de données MySQL, et lorsqu'un stockage massif de données est requis, la base de données de documents de MongoDB est plus adaptée.

3. Configurer les informations de connexion à la base de données

Avant l'opération spécifique, nous devons configurer les informations de connexion à la base de données. Par exemple, en prenant la base de données MySQL comme exemple, vous pouvez utiliser la bibliothèque pymysql en Python pour vous connecter.

Dans Scrapy, nous le configurons généralement dans settings.py :

MYSQL_HOST = 'localhost'
MYSQL_PORT = 3306
MYSQL_USER = 'root'
MYSQL_PASSWORD = '123456'
MYSQL_DBNAME = 'scrapy_demo'

Dans la configuration ci-dessus, nous avons configuré le nom d'hôte, le numéro de port, le nom d'utilisateur, le mot de passe et le nom de la base de données où se trouve la base de données MySQL. Ces informations sont requises Modifier. selon la situation réelle.

4. Écrivez le pipeline de stockage de données

Dans Scrapy, le pipeline de stockage de données est la clé pour réaliser le stockage de données. Nous devons écrire une classe Pipeline, puis la définir dans le fichier de configuration Scrapy pour stocker les données.

En prenant le stockage dans MySQL comme exemple, nous pouvons écrire une classe MySQLPipeline comme suit :

import pymysql

class MySQLPipeline(object):

    def open_spider(self, spider):
        self.conn = pymysql.connect(host=spider.settings.get('MYSQL_HOST'),
                                    port=spider.settings.get('MYSQL_PORT'),
                                    user=spider.settings.get('MYSQL_USER'),
                                    password=spider.settings.get('MYSQL_PASSWORD'),
                                    db=spider.settings.get('MYSQL_DBNAME'))
        self.cur = self.conn.cursor()

    def close_spider(self, spider):
        self.conn.close()

    def process_item(self, item, spider):
        sql = 'INSERT INTO articles(title, url, content) VALUES(%s, %s, %s)'
        self.cur.execute(sql, (item['title'], item['url'], item['content']))
        self.conn.commit()

        return item

Dans le code ci-dessus, nous définissons une classe MySQLPipeline pour implémenter l'amarrage avec la base de données MySQL, et définissons trois méthodes open_spider, close_spider et process_item.

Parmi eux, la méthode open_spider est appelée lorsque l'ensemble du robot commence à s'exécuter pour initialiser la connexion à la base de données ; la méthode close_spider est appelée lorsque le robot se termine pour fermer la connexion à la base de données. Process_item est la méthode appelée à chaque fois que les données sont analysées pour stocker les données dans la base de données.

5. Activer Pipeline

Après avoir terminé l'écriture de Pipeline, nous devons également l'activer dans le fichier de configuration settings.py de Scrapy. Ajoutez simplement la classe Pipeline à la variable ITEM_PIPELINES, comme indiqué ci-dessous :

ITEM_PIPELINES = {
    'myproject.pipelines.MySQLPipeline': 300,
}

Dans le code ci-dessus, nous avons ajouté la classe MySQLPipeline à la variable ITEM_PIPELINES et défini la priorité sur 300, ce qui signifie que lors du traitement de l'élément, la classe Pipeline soyez le troisième appelé.

6. Test et fonctionnement

Après avoir terminé toutes les configurations, nous pouvons exécuter le robot Scrapy et stocker les données capturées dans la base de données MySQL. Les étapes et commandes spécifiques sont les suivantes :

1. Entrez le répertoire où se trouve le projet Scrapy et exécutez la commande suivante pour créer un projet Scrapy :

scrapy startproject myproject

2. Créez un Spider pour tester la fonction de stockage de données du Scrapy. framework et explorez le magasin de données dans la base de données. Exécutez la commande suivante dans le répertoire myproject :

scrapy genspider test_spider baidu.com

La commande ci-dessus générera un Spider nommé test_spider pour explorer Baidu.

3. Écrivez le code Spider. Dans le répertoire spiders du répertoire test_sprider, ouvrez test_sprider.py et écrivez le code du robot :

import scrapy
from myproject.items import ArticleItem

class TestSpider(scrapy.Spider):
    name = "test"
    allowed_domains = ["baidu.com"]
    start_urls = [
        "https://www.baidu.com",
    ]

    def parse(self, response):
        item = ArticleItem()
        item['title'] = 'MySQL Pipeline测试'
        item['url'] = response.url
        item['content'] = 'Scrapy框架与MySQL数据库整合测试'
        yield item

Dans le code ci-dessus, nous définissons une classe TestSpider, qui hérite de la classe Spider qui vient. avec Scrapy. Gérez la logique du robot. Dans la méthode d'analyse, nous construisons un objet Item et définissons les trois mots-clés « content », « url » et « title ».

4. Créez un fichier items dans le répertoire myproject pour définir le modèle de données :

import scrapy

class ArticleItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    content = scrapy.Field()

Dans le code ci-dessus, nous définissons une classe ArticleItem pour enregistrer les données de l'article analysé.

5. Code de test :

Dans le répertoire test_spider, exécutez la commande suivante pour tester votre code :

scrapy crawl test

Après avoir exécuté la commande ci-dessus, Scrapy démarrera le robot TestSpider et stockera les données capturées à partir de la page d'accueil de Baidu dans un MySQL. base de données.

7. Résumé

Cet article présente brièvement comment le framework Scrapy s'intègre à la base de données et implémente le stockage dynamique des données. J'espère que cet article pourra aider les lecteurs dans le besoin, et j'espère également que les lecteurs pourront se développer en fonction de leurs besoins réels pour obtenir des fonctions de stockage de données dynamiques plus efficaces et plus rapides.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python mysql scrapy 继承对象 mongodb postgresql 数据库

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Python et Django : outils de développement d'applications Web simples mais puissantsArticle suivant：Python et Django : outils de développement d'applications Web simples mais puissants

Articles Liés

Voir plus