Maison >développement back-end >Tutoriel Python >Quelles bibliothèques sont utilisées pour écrire des robots en Python ?

Quelles bibliothèques sont utilisées pour écrire des robots en Python ?

silencementoriginal: 2019-06-21 15:34:327460parcourir

Python Crawler, le nom complet du Python Web Crawler, est un programme ou un script qui explore automatiquement les informations du World Wide Web selon certaines règles. Il est principalement utilisé pour explorer les données de négociation de titres et. données météorologiques, données utilisateur du site Web et données d'image, etc. Afin de prendre en charge les fonctions normales des robots d'exploration Web, Python dispose d'un grand nombre de bibliothèques intégrées, principalement de plusieurs types. L’article suivant vous le présentera.

1. Bibliothèque réseau de robots d'exploration Python

La bibliothèque réseau de robots d'exploration Python comprend principalement : urllib, requêtes, grab, pycurl, urllib3, httplib2, RoboBrowser, MechanicalSoup, mécanisme, socket, Unirest pour Python, hyper , PySocks, treq et aiohttp, etc.

2. Framework de robot d'exploration Web Python

Le framework de robot d'exploration Web Python comprend principalement : grab, scrapy, pyspider, cola, portia, restkit et démiurge, etc.

3. Analyseur HTML/XML

Quantity　lxml : Une bibliothèque de traitement HTML/XML efficace écrite en langage C. Prend en charge XPath.

● cssselect : analyser l'arborescence DOM et le sélecteur CSS.

● Pyquery : analyser l'arborescence DOM et le sélecteur jQuery.

●BeautifulSoup : bibliothèque de traitement HTML/XML inefficace, implémentée en Python pur.

Quantity　html5lib : Génère le DOM des documents HTML/XML selon la spécification WHATWG. Cette spécification est utilisée dans tous les navigateurs actuels.

● Feedparser : analyse les flux RSS/ATOM.

● MarkupSafe : fournit des chaînes d'échappement sécurisées pour XML/HTML/XHTML.

● xmltodict : un module Python qui donne l'impression que le traitement du XML ressemble à du JSON.

● xhtml2pdf : Convertissez HTML/CSS en PDF.

●untangle : convertissez facilement des fichiers XML en objets Python.

4. Traitement de texte

Une bibliothèque pour analyser et manipuler du texte simple.

Quantity　difflib : (bibliothèque standard Python) aide aux comparaisons différentielles.

Quantity　Levenshtein : calculez rapidement la distance de Levenshtein et la similarité des cordes.

● fuzzywuzzy : correspondance de chaînes floues.

●　esmre : Accélérateur d'expressions régulières.

Quantity　ftfy : Organisez automatiquement le texte Unicode pour réduire la fragmentation.

5. Traitement de fichiers de formats spécifiques

Une bibliothèque pour analyser et traiter des formats de texte spécifiques.

● tablib : Un module qui exporte des données vers XLS, CSV, JSON, YAML et d'autres formats.

Quantitytext: Extrayez le texte de divers fichiers, tels que Word, PowerPoint, PDF, etc.

● Messytables : un outil pour analyser des données tabulaires désordonnées.

● lignes : une interface de données commune qui prend en charge de nombreux formats (prend actuellement en charge CSV, HTML, XLS, TXT : d'autres seront fournis à l'avenir !).

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Quelle est la relation entre Python et les robots d’exploration ?Article suivant：Quelle est la relation entre Python et les robots d’exploration ?

Articles Liés

Voir plus