Maison >développement back-end >Tutoriel Python >Le framework de robot d'exploration Python le plus efficace de l'histoire (recommandé)

Le framework de robot d'exploration Python le plus efficace de l'histoire (recommandé)

烟雨青岚
烟雨青岚avant
2020-07-02 13:20:273607parcourir

Le framework de robot d'exploration Python le plus efficace de l'histoire (recommandé)

Les robots d'exploration Web (également appelés araignées Web, robots Web et plus communément appelés chasseurs de pages Web dans la communauté FOAF) sont un type de robot d'exploration Web qui suit automatiquement certaines règles A. programme ou script qui analyse les informations du World Wide Web. Découvrons ensemble ci-dessous.

1. Scrapy

Scrapy est un framework d'application écrit pour explorer les données de sites Web et extraire des données structurelles. Il peut être utilisé dans une série de programmes, notamment l’exploration de données, le traitement de l’information ou le stockage de données historiques. . Grâce à ce framework, vous pouvez facilement analyser des données telles que les informations sur les produits Amazon.

Le framework de robot dexploration Python le plus efficace de lhistoire (recommandé)

Adresse du projet : https://scrapy.org/

2. PySpider

pyspider est un. Un puissant système d'exploration de sites Web implémenté en Python. Il peut écrire des scripts, planifier des fonctions et afficher les résultats de l'exploration en temps réel sur l'interface du navigateur. Le backend utilise des bases de données couramment utilisées pour stocker les résultats de l'exploration et peut également définir les tâches et les priorités des tâches, etc. .

Le framework de robot dexploration Python le plus efficace de lhistoire (recommandé)

Adresse du projet : https://github.com/binux/pyspider

3.Crawley

Crawley peut explorer le contenu du site Web correspondant à grande vitesse, prend en charge les bases de données relationnelles et non relationnelles et les données peuvent être exportées vers JSON, XML, etc.

Le framework de robot dexploration Python le plus efficace de lhistoire (recommandé)

Adresse du projet : http://project.crawley-cloud.com/

4.Portia

Portia est un outil d'exploration visuelle open source qui vous permet d'explorer des sites Web sans aucune connaissance en programmation ! Annotez simplement les pages qui vous intéressent et Portia créera une araignée pour extraire les données des pages similaires.

Le framework de robot dexploration Python le plus efficace de lhistoire (recommandé)

Adresse du projet : https://github.com/scrapinghub/portia

Journal

Le journal peut être utilisé pour extraire des actualités, des articles et des analyses de contenu. Utilisez le multi-threading, prenez en charge plus de 10 langues, etc.

Le framework de robot dexploration Python le plus efficace de lhistoire (recommandé)

Adresse du projet : https://github.com/codelucas/newspaper

6.Belle soupe

Beautiful Soup est une bibliothèque Python qui peut extraire des données à partir de fichiers HTML ou XML. Elle peut réaliser la manière habituelle de navigation, de recherche et de modification de documents via votre convertisseur préféré, vous faisant gagner des heures, voire des jours.

Le framework de robot dexploration Python le plus efficace de lhistoire (recommandé)

Adresse du projet : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

7.Grab

Grab est un framework Python pour créer des web scrapers. Avec Grab, vous pouvez créer des scrapers Web de complexité variable, depuis de simples scripts de 5 lignes jusqu'à des scrapers de sites Web asynchrones complexes qui gèrent des millions de pages Web. Grab fournit une API pour effectuer des requêtes réseau et traiter le contenu reçu, comme interagir avec l'arborescence DOM d'un document HTML.

Le framework de robot dexploration Python le plus efficace de lhistoire (recommandé)

Adresse du projet : http://docs.grablib.org/en/latest/#grab-spider-user-manual

8 .Cola

Cola est un framework de robots distribués. Pour les utilisateurs, il leur suffit d'écrire quelques fonctions spécifiques sans prêter attention aux détails du fonctionnement distribué. Les tâches sont automatiquement réparties sur plusieurs machines et l'ensemble du processus est transparent pour l'utilisateur.

Le framework de robot dexploration Python le plus efficace de lhistoire (recommandé)

Adresse du projet : https://github.com/chineking/cola

Merci d'avoir lu, j'espère que vous en bénéficierez beaucoup.

Réimprimé sur : https://www.toutiao.com/i6560240315519730190/

Tutoriel recommandé : "tutoriel python"

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer