Maison  >  Article  >  développement back-end  >  Que signifie le robot d'exploration Python ?

Que signifie le robot d'exploration Python ?

silencement
silencementoriginal
2019-05-14 17:29:0551265parcourir

Le robot d'exploration Python fait référence au robot d'exploration Web Python, également connu sous le nom d'araignée Web et de robot Web. Il s'agit d'un programme ou d'un script qui capture automatiquement les informations du World Wide Web selon certaines règles. Il en existe d'autres moins couramment utilisées. connus sous le nom de fourmis, auto-indexeurs, émulateurs ou vers.

Que signifie le robot d'exploration Python ?

En termes simples, Internet est un vaste réseau composé de sites et de périphériques réseau. Nous accédons au site via un navigateur, et le site met du HTML, JS, et codes CSS Renvoyés au navigateur, ces codes sont analysés et restitués par le navigateur pour présenter sous nos yeux des pages web riches et colorées

Que signifie le robot d'exploration Python ?

Si l'on compare Internet à une grande toile d'araignée, les données sont stockées dans chaque nœud de la toile d'araignée, et le robot Python est une petite araignée,

saisit sa propre proie (données) le long du réseau. Le robot fait référence à : créer une. requête sur le site Web, obtention d'un programme qui analyse et extrait des données utiles après les ressources

D'un point de vue technique, il simule le comportement d'un navigateur demandant un site via un programme et explore le code HTML/les données JSON ; /données binaires (images, vidéos) renvoyées par le site à la zone locale, puis extrayez les données dont vous avez besoin, stockez-les et utilisez-les

Principes de base du robot d'exploration Python

Que signifie le robot dexploration Python ?

1. Lancer une requête

Utilisez la bibliothèque http pour lancer une requête vers le site cible, c'est-à-dire envoyer une requête

Demande comprend : l'en-tête de la requête, le corps de la requête, etc.

Défaut du module de requête : le code JS et CSS ne peut pas être exécuté

2. Obtenez le contenu de la réponse

Si le serveur peut répondre normalement, vous obtiendrez une réponse

La réponse comprend : html, json, images, vidéos, etc.

3. Analyser le contenu

Analyser les données html : expression régulière (RE module), bibliothèques d'analyse tierces telles que Beautifulsoup, pyquery, etc.

Analyser les données json : module json

analyser les données binaires : écrire des fichiers au format wb

4 . Sauvegarder les données

Base de données (MySQL, Mongdb, Redis)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn