Maison > Article > développement back-end > Analyse du principe de fonctionnement du robot d'exploration Python
1. Comment fonctionne le robot d'exploration
Le robot d'exploration Web, ou Web Spider, est un nom très vivant. Si Internet est comparé à une toile d’araignée, alors une araignée est une araignée qui rampe sur la toile. Les robots Web recherchent des pages Web via leurs adresses de liens. À partir d'une certaine page du site Web (généralement la page d'accueil), lisez le contenu de la page Web, recherchez d'autres adresses de lien dans la page Web, puis recherchez la page Web suivante via ces adresses de lien. Ce cycle se poursuit jusqu'à toutes les pages Web de ce site Web. sont inclus jusqu'à ce que la récupération soit terminée. Si l’ensemble d’Internet est considéré comme un site Web, les robots d’exploration du Web peuvent alors utiliser ce principe pour explorer toutes les pages Web d’Internet. De cette façon, un robot d'exploration Web est un robot d'exploration, un programme qui explore les pages Web. L’opération de base d’un robot d’exploration Web consiste à explorer les pages Web. Alors, comment pouvez-vous obtenir la page que vous souhaitez exactement comme vous le souhaitez ? Commençons par l'URL.
Le processus d'exploration des pages Web est en fait le même que la façon dont les lecteurs utilisent habituellement le navigateur IE pour parcourir les pages Web. Par exemple, vous saisissez l'adresse www.baidu.com dans la barre d'adresse du navigateur. Le processus d'ouverture d'une page Web consiste en fait par le navigateur, en tant que "client" de navigation, à envoyer une requête au serveur, à "récupérer" les fichiers côté serveur localement, puis à les interpréter et à les afficher. HTML est un langage de balisage qui utilise des balises pour marquer le contenu, l'analyser et le différencier. La fonction du navigateur est d'analyser le code HTML obtenu, puis de convertir le code original en page du site Web que nous voyons directement.
Pour faire simple, l'URL est la chaîne http://www.baidu.com saisie dans le navigateur. Avant de comprendre les URL, vous devez d’abord comprendre le concept des URI.
Qu'est-ce qu'un URI ?
Chaque ressource disponible sur le Web, telle que les documents HTML, les images, les clips vidéo, les programmes, etc., est localisée par un identifiant de ressource universel (URI).
L'URI se compose généralement de trois parties :
Le mécanisme de nommage pour accéder aux ressources
Le nom d'hôte où la ressource est stockée ;
Le nom de ; la ressource elle-même, constituée du chemin express.
Par exemple, l'URI suivante : http://www.why.com.cn/myhtml/html1223/
Il s'agit d'une ressource accessible via le protocole HTTP,
Situé sur l'hébergeur www.webmonkey.com.cn,
est accessible via le chemin "/html/html40".
2. Compréhension et exemples d'URL
L'URL est un sous-ensemble de l'URI. C'est l'abréviation de Uniform Resource Locator, traduit par « Uniform Resource Locator ». En termes simples, l'URL est une chaîne décrivant les ressources d'informations sur Internet et est principalement utilisée dans divers programmes clients et serveurs WWW. Les URL peuvent être utilisées pour décrire diverses ressources d'informations dans un format unifié, notamment des fichiers, des adresses de serveur et des répertoires, etc. Le format général de l'URL est (ceux entre crochets [] sont facultatifs) :
protocole :// hostname[:port] / path / [;parameters][?query]#fragment
Le format de l'URL se compose de trois parties :
La première partie est le protocole (ou méthode de service).
La deuxième partie est l'adresse IP de l'hôte où la ressource est stockée (incluant parfois le numéro de port).
La troisième partie est l'adresse spécifique des ressources hôtes, telles que les répertoires et les noms de fichiers.
La première partie et la deuxième partie sont séparées par le symbole "://", et la deuxième partie et la troisième partie sont séparées par le symbole "/". Les première et deuxième parties sont indispensables, et la troisième partie peut parfois être omise.
3. Comparaison simple de l'URL et de l'URI
L'URI est une abstraction de niveau inférieur de l'URL, une norme de texte de chaîne. En d’autres termes, les URI appartiennent à la classe parent et les URL appartiennent aux sous-classes d’URI. L'URL est un sous-ensemble de l'URI. La définition de l'URI est : Uniform Resource Identifier ; la définition de l'URL est : Uniform Resource Locator. La différence entre les deux est que l'URI représente le chemin d'accès au serveur de requêtes et définit une telle ressource. L'URL décrit également comment accéder à la ressource (http://).
Jetons un coup d'œil à deux petits exemples d'URL.
1. Exemple d'URL du protocole HTTP :
Utilisez le protocole de transfert hypertexte HTTP pour fournir des ressources pour les services d'informations hypertextes.
Exemple : http://www.peopledaily.com.cn/channel/welcome.htm
Le nom de domaine de l'ordinateur est www.peopledaily.com.cn.
Le fichier hypertexte (le type de fichier est .html) est bienvenue.htm dans le répertoire /channel.
Ceci est un ordinateur du Quotidien du Peuple de Chine.
Exemple : http://www.rol.cn.NET/talk/talk1.htm
Le nom de domaine de l'ordinateur est www.rol.cn.Net.
Le fichier hypertexte (le type de fichier est .html) est talk1.htm dans le répertoire/talk.
Voici l'adresse du Red Chat Room. Vous pouvez accéder à la première salle du Red Chat Room à partir d'ici.
2. URL du fichier
Lorsque vous utilisez une URL pour représenter un fichier, le mode serveur est représenté par un fichier, suivi de l'adresse IP de l'hôte, du chemin d'accès au fichier (c'est-à-dire un répertoire), du nom du fichier et d'autres informations.
Parfois, les noms de répertoires et de fichiers peuvent être omis, mais le symbole "/" ne peut pas être omis.
Exemple : file://ftp.yoyodyne.com/pub/files/foobar.txt
L'URL ci-dessus représente le répertoire pub/files/ stocké sur l'hôte ftp.yoyodyne.com Un fichier en dessous, le nom du fichier est foobar.txt.
Exemple : file://ftp.yoyodyne.com/pub
représente le répertoire/pub sur l'hôte ftp.yoyodyne.com.
Exemple : file://ftp.yoyodyne.com/
représente le répertoire racine de l'hôte ftp.yoyodyne.com.
L'objet de traitement principal du robot d'exploration est l'URL. Il obtient le contenu du fichier requis en fonction de l'adresse URL, puis le traite ultérieurement.
Par conséquent, comprendre avec précision les URL est crucial pour comprendre les robots d’exploration Web.
Ce qui précède est l'intégralité du contenu de cet article. J'espère que le contenu de cet article pourra apporter de l'aide à l'étude ou au travail de chacun. J'espère également soutenir le site Web PHP chinois !
Pour plus d'articles liés à l'analyse du principe de fonctionnement du robot d'exploration Python, veuillez faire attention au site Web PHP chinois !