Maison >développement back-end >Tutoriel Python >Est-il difficile d'apprendre le robot d'exploration Python ?
Pour faire simple, Internet est un vaste réseau composé de sites et de périphériques réseau. Nous accédons au site via un navigateur, et le site renvoie les codes HTML, JS et CSS au navigateur. Ces codes sont analysés et rendus. par le navigateur, puis des pages web riches et colorées apparaissent sous nos yeux.
Qu'est-ce qu'un robot d'exploration ?
Si nous comparons Internet à une grande toile d'araignée, les données sont stockées dans chaque nœud de la toile d'araignée, et le robot est une petite araignée, récupérant ses propres informations le long du réseau Un robot d'exploration de proies (données) fait référence à un programme qui initie une requête vers un site Web, obtient des ressources, analyse et extrait des données utiles d'un point de vue technique, il simule le comportement d'un navigateur demandant un site via un programme et convertit le code HTML ; code/données JSON renvoyées par le site. /Données binaires (images, vidéos) Grimpez localement, extrayez les données dont vous avez besoin et stockez-les pour les utiliser.
Processus de base du robot d'exploration
Comment les utilisateurs obtiennent les données du réseau :
Méthode 1 : le navigateur soumet la demande ---> -->Analyser en pages
Méthode 2 : Simuler le navigateur pour envoyer une requête (obtenir le code de la page Web)->Extraire les données utiles->Stocker dans la base de données ou un fichier
Crawler Tout ce que vous avez à faire est la méthode 2
Lancer une requête
Utiliser la bibliothèque http pour lancer une requête vers le site cible, c'est-à-dire , envoyez une requête
La requête contient : en-tête de la requête, corps de la requête, etc.
Défaut du module de requête : impossible d'exécuter le code JS et CSS
Obtenir le contenu de la réponse
Si le serveur peut répondre normalement, vous obtiendrez une réponse
La réponse comprend : html, json, images, vidéos, etc.
Contenu analysé
html analysé data : expressions régulières (module RE), bibliothèques d'analyse tierces telles que Beautifulsoup, pyquery, etc.
analyser les données json : module json
analyser les données binaires : écrire le fichier en mode wb
sauvegarder les données
base de données (MySQL, Mongdb, Redis)
Fichier
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!