Maison  >  Article  >  développement back-end  >  Est-il difficile d'apprendre le robot d'exploration Python ?

Est-il difficile d'apprendre le robot d'exploration Python ?

silencement
silencementoriginal
2019-06-12 15:18:563917parcourir

Pour faire simple, Internet est un vaste réseau composé de sites et de périphériques réseau. Nous accédons au site via un navigateur, et le site renvoie les codes HTML, JS et CSS au navigateur. Ces codes sont analysés et rendus. par le navigateur, puis des pages web riches et colorées apparaissent sous nos yeux.

Est-il difficile d'apprendre le robot d'exploration Python ?

Qu'est-ce qu'un robot d'exploration ?

Si nous comparons Internet à une grande toile d'araignée, les données sont stockées dans chaque nœud de la toile d'araignée, et le robot est une petite araignée, récupérant ses propres informations le long du réseau Un robot d'exploration de proies (données) fait référence à un programme qui initie une requête vers un site Web, obtient des ressources, analyse et extrait des données utiles d'un point de vue technique, il simule le comportement d'un navigateur demandant un site via un programme et convertit le code HTML ; code/données JSON renvoyées par le site. /Données binaires (images, vidéos) Grimpez localement, extrayez les données dont vous avez besoin et stockez-les pour les utiliser.

Processus de base du robot d'exploration

Comment les utilisateurs obtiennent les données du réseau :

Méthode 1 : le navigateur soumet la demande ---> -->Analyser en pages

Méthode 2 : Simuler le navigateur pour envoyer une requête (obtenir le code de la page Web)->Extraire les données utiles->Stocker dans la base de données ou un fichier

Crawler Tout ce que vous avez à faire est la méthode 2

Lancer une requête

Utiliser la bibliothèque http pour lancer une requête vers le site cible, c'est-à-dire , envoyez une requête

La requête contient : en-tête de la requête, corps de la requête, etc.

Défaut du module de requête : impossible d'exécuter le code JS et CSS

Obtenir le contenu de la réponse

Si le serveur peut répondre normalement, vous obtiendrez une réponse

La réponse comprend : html, json, images, vidéos, etc.

Contenu analysé

html analysé data : expressions régulières (module RE), bibliothèques d'analyse tierces telles que Beautifulsoup, pyquery, etc.

analyser les données json : module json

analyser les données binaires : écrire le fichier en mode wb

sauvegarder les données

base de données (MySQL, Mongdb, Redis)

Fichier

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn