Maison  >  Article  >  développement back-end  >  Que signifie le python sur chenilles ?

Que signifie le python sur chenilles ?

藏色散人
藏色散人original
2019-06-25 10:13:532297parcourir

Que signifie le python sur chenilles ?

Que signifie le python sur chenilles ?

Crawler, également connu sous le nom de robot d'exploration Web, fait principalement référence aux scripts et aux programmes qui collectent des données sur Internet et constitue la base de l'analyse et de l'exploration de données.

Le soi-disant robot d'exploration fait référence à l'obtention d'informations de données utiles pour nous à partir d'une URL donnée (site Web), à la réalisation d'une grande quantité d'acquisition de données via le code et à l'obtention de règles pertinentes via un tri ultérieur des données, un calcul, etc. , et Tendances de l’industrie et autres informations.

L'architecture du robot d'exploration Python se compose principalement de cinq parties, à savoir le planificateur, le gestionnaire d'URL, le téléchargeur de pages Web, l'analyseur de pages Web et l'application (données précieuses analysées).

Planificateur :

est équivalent au processeur d'un ordinateur et est principalement responsable de la planification de la coordination entre le gestionnaire d'URL, le téléchargeur et l'analyseur.

Gestionnaire d'URL :

Comprend les adresses URL à explorer et les adresses URL qui ont été explorées, empêchant l'exploration répétée des URL et l'exploration en boucle des URL, et réalisant l'URL Le gestionnaire est principalement implémenté de trois manières, via la mémoire, la base de données et la base de données cache.

Téléchargeur de page Web :

Téléchargez une page Web en passant une adresse URL et convertissez la page Web en chaîne Le téléchargeur de page Web a urllib2 (officiel Python. module de base) Y compris le besoin de connexion, de proxy et de cookies, les requêtes (package tiers)

Analyseur de page Web :

Pour analyser une chaîne de page Web, vous pouvez suivre nos exigences pour extraire nos informations utiles qui peuvent également être analysées selon la méthode d'analyse de l'arborescence DOM. Les analyseurs de pages Web incluent des expressions régulières (convertissent intuitivement les pages Web en chaînes pour extraire des informations précieuses grâce à une correspondance floue. Lorsque le document est complexe, cette méthode sera très difficile à extraire des données), l'analyseur HTML (fourni avec Python), beautifulsoup. (un plug-in tiers, vous pouvez utiliser le html.parser fourni avec Python pour l'analyse, ou vous pouvez utiliser lxml pour l'analyse, qui est plus puissant que les autres), lxml (un plug-in tiers , peut analyser XML et HTML), html.parser, beautifulsoup et lxml sont tous analysés sous la forme d'une arborescence DOM.

Application :

est une application composée de données utiles extraites de pages Web.

Recommandations associées : "Tutoriel Python"

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn