Maison >développement back-end >Tutoriel Python >Quels sont les frameworks de robots d'exploration Python ?

Quels sont les frameworks de robots d'exploration Python ?

(*-*)浩original: 2019-06-12 14:38:163984parcourir

Aujourd'hui, j'aimerais vous recommander des frameworks de robots d'exploration Python plus efficaces. Partagez-le avec tout le monde.

1. Scrapy

Scrapy est un framework d'application écrit pour explorer les données de sites Web et extraire des données structurelles. Il peut être utilisé dans une série de programmes, notamment l’exploration de données, le traitement de l’information ou le stockage de données historiques. Grâce à ce framework, vous pouvez facilement analyser des données telles que les informations sur les produits Amazon. (Apprentissage recommandé : Tutoriel vidéo Python)

Adresse du projet : https://scrapy.org/

2.PySpider

pyspider est un puissant système d'exploration de sites Web implémenté en Python. Il peut écrire des scripts, planifier des fonctions et afficher les résultats de l'exploration en temps réel sur l'interface du navigateur. Le backend utilise des bases de données couramment utilisées pour stocker les résultats de l'exploration, et peut également définir des tâches et. régulièrement les priorités des tâches.

Adresse du projet : https://github.com/binux/pyspider

3. Crawley

Crawley peut explorer le contenu du site Web correspondant. à grande vitesse, prend en charge les bases de données relationnelles et non relationnelles, et les données peuvent être exportées vers JSON, XML, etc.

Adresse du projet : http://project.crawley-cloud.com/

4. Journal

Le journal peut être utilisé pour extraire des informations et articles et analyse de contenu. Utilisez le multi-threading, prenez en charge plus de 10 langues, etc.

Adresse du projet : https://github.com/codelucas/newspaper

5.Beautiful Soup

Beautiful Soup est un outil qui peut être téléchargé à partir de HTML ou d'une bibliothèque Python pour extraire des données à partir de fichiers XML. Il permet les méthodes habituelles de navigation, de recherche et de modification de documents via votre convertisseur préféré. Beautiful Soup vous fera gagner des heures, voire des jours de travail.

Adresse du projet : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

6.Grab

Grab est un framework Python pour créer des web scrapers. Avec Grab, vous pouvez créer des scrapers Web de complexité variable, depuis de simples scripts de 5 lignes jusqu'à des scrapers de sites Web asynchrones complexes qui gèrent des millions de pages Web. Grab fournit une API pour effectuer des requêtes réseau et traiter le contenu reçu, comme interagir avec l'arborescence DOM d'un document HTML.

Adresse du projet : http://docs.grablib.org/en/latest/#grab-spider-user-manual

7.Cola

Cola est un framework de robots distribués. Pour les utilisateurs, il leur suffit d'écrire quelques fonctions spécifiques sans prêter attention aux détails du fonctionnement distribué. Les tâches sont automatiquement réparties sur plusieurs machines et l'ensemble du processus est transparent pour l'utilisateur.

Adresse du projet : https://github.com/chineking/cola

Pour plus d'articles techniques liés à Python, veuillez visiter la colonne Tutoriel Python pour apprendre !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python 分布式 json html scrapy beautifulsoup xml 线程多线程 dom 异步 github 数据库 http https

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：où est inactif en pythonArticle suivant：où est inactif en python

Articles Liés

Voir plus