Maison > Article > développement back-end > Que signifie le robot d'exploration Python ?
Le robot d'exploration Python fait référence au robot d'exploration Web Python, également connu sous le nom d'araignée Web et de robot Web. Il s'agit d'un programme ou d'un script qui capture automatiquement les informations du World Wide Web selon certaines règles. Il en existe d'autres moins couramment utilisées. connus sous le nom de fourmis, auto-indexeurs, émulateurs ou vers.
En termes simples, Internet est un vaste réseau composé de sites et de périphériques réseau. Nous accédons au site via un navigateur, et le site met du HTML, JS, et codes CSS Renvoyés au navigateur, ces codes sont analysés et restitués par le navigateur pour présenter sous nos yeux des pages web riches et colorées
Si l'on compare Internet à une grande toile d'araignée, les données sont stockées dans chaque nœud de la toile d'araignée, et le robot Python est une petite araignée,
saisit sa propre proie (données) le long du réseau. Le robot fait référence à : créer une. requête sur le site Web, obtention d'un programme qui analyse et extrait des données utiles après les ressources
D'un point de vue technique, il simule le comportement d'un navigateur demandant un site via un programme et explore le code HTML/les données JSON ; /données binaires (images, vidéos) renvoyées par le site à la zone locale, puis extrayez les données dont vous avez besoin, stockez-les et utilisez-les
Principes de base du robot d'exploration Python
1. Lancer une requête
Utilisez la bibliothèque http pour lancer une requête vers le site cible, c'est-à-dire envoyer une requête
Demande comprend : l'en-tête de la requête, le corps de la requête, etc.
Défaut du module de requête : le code JS et CSS ne peut pas être exécuté
2. Obtenez le contenu de la réponse
Si le serveur peut répondre normalement, vous obtiendrez une réponse
La réponse comprend : html, json, images, vidéos, etc.
3. Analyser le contenu
Analyser les données html : expression régulière (RE module), bibliothèques d'analyse tierces telles que Beautifulsoup, pyquery, etc.
Analyser les données json : module json
analyser les données binaires : écrire des fichiers au format wb
4 . Sauvegarder les données
Base de données (MySQL, Mongdb, Redis)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!