Maison >développement back-end >Tutoriel Python >Qu'est-ce qu'un robot ? Introduction aux concepts du robot d'exploration Web Python

Qu'est-ce qu'un robot ? Introduction aux concepts du robot d'exploration Web Python

不言original: 2018-09-15 14:33:003446parcourir

Le contenu de cet article porte sur ce qu'est un robot d'exploration ? L'introduction de concepts dans les robots d'exploration Web Python a une certaine valeur de référence. Les amis dans le besoin peuvent s'y référer. J'espère que cela vous sera utile.

Introduction aux concepts liés aux robots d'exploration

a) Qu'est-ce qu'un robot d'exploration :

Un robot d'exploration est écrit par Le programme simule le processus d'un navigateur surfant sur Internet et le laissant ensuite explorer les données d'Internet.

b) Quels langages peuvent implémenter des robots :

1.php : Peut implémenter des robots. PHP est connu comme le plus beau langage du monde (bien sûr, c'est sa propre affirmation, ce qui signifie que Wang Po vend des melons), mais PHP ne réussit pas bien à prendre en charge le multi-threading et le multi-processus dans les robots d'exploration.

2.java : Crawler peut être implémenté. Java peut très bien gérer et implémenter les robots d'exploration. C'est le seul qui peut suivre le rythme de Python et est son rival numéro un. Cependant, le code du robot Java est relativement volumineux et le coût de la reconstruction est élevé.

3.c, c++ : des robots d'exploration peuvent être implémentés. Cependant, utiliser cette méthode pour implémenter des robots d’exploration est purement le reflet des capacités de certaines personnes (les grands), mais ce n’est pas un choix judicieux et raisonnable.

4.python : des robots d'exploration peuvent être implémentés. Python a une syntaxe simple pour implémenter et traiter les robots d'exploration, un beau code, prend en charge de nombreux modules, un faible coût d'apprentissage, dispose d'un framework très puissant (scrapy, etc.) et est indescriptiblement bon ! Non mais !

c) Classification des robots d'exploration : Selon les scénarios d'utilisation, ils peuvent être divisés dans les deux catégories suivantes

1. , Google, Yahoo, etc. ) une partie importante du « système d'exploration ». L'objectif principal est de télécharger des pages Web sur Internet sur l'ordinateur local pour former une sauvegarde miroir du contenu Internet.

1) Comment les moteurs de recherche explorent-ils les données des sites Web sur Internet ?

a) Le portail fournit activement à la société de moteurs de recherche l'URL de son site Web

b) La société de moteurs de recherche coopère avec le fournisseur de services DNS pour obtenir l'URL du site Web

c) Portail Le site Web est activement lié aux liens conviviaux de certains sites Web bien connus

2. Robot d'exploration ciblé : le robot d'exploration ciblé explore les données spécifiées sur le réseau en fonction de besoins spécifiés. Par exemple : obtenez le nom et les critiques du film sur Douban au lieu d'obtenir toutes les valeurs de données dans la page entière.

d) protocole robots.txt :

Si vous ne souhaitez pas que les données de la page spécifiée de votre portail soient explorées par le programme d'exploration, vous pouvez transmettre Écrivez un fichier de protocole robots.txt pour limiter l'exploration des données du programme d'exploration. Le format d'écriture du protocole des robots peut être observé sur les robots de Taobao (il suffit de visiter www.taobao.com/robots.txt). Cependant, il convient de noter que cet accord n'équivaut qu'à un accord verbal et n'utilise pas les technologies pertinentes pour un contrôle obligatoire. Cet accord vise donc à se prémunir contre les gentlemen et non contre les méchants. Mais le programme de robot d'exploration que nous écrivons au cours de la phase d'apprentissage du robot peut d'abord ignorer le protocole des robots.

e) Anti-crawler :

Le portail utilise des stratégies et des moyens techniques correspondants pour empêcher les programmes de robots d'exploration d'explorer les données du site Web.

f) Anti-crawler :

Le programme d'exploration utilise des stratégies et des moyens techniques correspondants pour déchiffrer la méthode anti-crawler du site Web du portail, explorant ainsi les données correspondantes .

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python Java php scrapy 线程多线程搜索引擎重构

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Tutoriel Introduction à l'utilisation de User-Profile dans Django (code source ci-joint)Article suivant：Tutoriel Introduction à l'utilisation de User-Profile dans Django (code source ci-joint)

Qu'est-ce qu'un robot ? Introduction aux concepts du robot d'exploration Web Python

Articles Liés