Maison > Article > interface Web > Introduction aux robots de protocole sur chenilles

Introduction aux robots de protocole sur chenilles

巴扎黑original: 2017-07-19 15:47:502630parcourir

Les mots précédents

Le nom complet du protocole Robots (également connu sous le nom de protocole de robot, protocole de robot, etc.) est « Protocole d'exclusion de robots ». Les sites Web utilisent le protocole Robots pour indiquer aux moteurs de recherche quelles pages peuvent être consultées. crawled , quelles pages ne peuvent pas être explorées. Cet article présentera en détail les robots du protocole d'exploration

Le nom complet du protocole Robots est "Robots Exclusion Protocol". Sa fonction est d'indiquer aux moteurs de recherche via les fichiers Robots quelles pages peuvent être explorées et quelles pages ne peuvent pas être explorées. . Récupération, récupération de normes, etc. Il est placé dans le répertoire racine du site Web sous la forme d'un fichier texte, qui peut être modifié et édité avec n'importe quel éditeur de texte courant. Pour les webmasters, écrire correctement le fichier robots.txt peut permettre une utilisation plus raisonnable des moteurs de recherche, bloquer certaines pages de mauvaise qualité et améliorer la qualité du site Web et sa convivialité pour les moteurs de recherche.

s'écrit spécifiquement comme suit :

(* est un caractère générique)

User-agent : * représente tous les types de moteurs de recherche ,

Interdire : /admin/ La définition ici est d'interdire l'exploration du répertoire sous le répertoire admin

Interdire : /require/ La définition ici est d'interdire l'exploration du répertoire sous le répertoire require

Disallow : /ABC/ La définition ici est d'interdire l'exploration des répertoires sous le répertoire ABC

Disallow: /cgi-bin/*.htm Il interdit l'accès à tous les fichiers avec le ".htm " dans le répertoire /cgi-bin/. URL (y compris les sous-répertoires).

Interdire : /*?* Interdit l'accès à toutes les URL contenant des points d'interrogation (?) sur le site Web

Interdire : /.jpg$ Interdit l'exploration de toutes les images au format .jpg sur la page Web

Disallow:/ab/adc.html Interdit l'exploration du fichier adc.html sous le dossier ab.

Autoriser : /cgi-bin/ La définition ici est d'autoriser l'exploration des répertoires sous le répertoire cgi-bin

Autoriser : /tmp La définition ici est d'autoriser l'exploration de l'intégralité du répertoire de tmp

Autoriser : .htm$ autorise uniquement l'accès aux URL avec le suffixe ".htm".

Autoriser : .gif$ permet d'explorer les pages Web et les images au format gif

Plan du site : le plan du site indique aux robots d'exploration que cette page est un plan du site

Aperçu

　robots Un fichier .txt est un fichier texte qui est le premier fichier consulté par les moteurs de recherche lors de la visite d'un site Web. Le fichier robots.txt indique à l'araignée quels fichiers peuvent être consultés sur le serveur

Lorsqu'une araignée de recherche visite un site, elle vérifiera d'abord si robots.txt existe dans le répertoire racine du site. , Les robots de recherche détermineront l'étendue de l'accès en fonction du contenu du fichier ; si le fichier n'existe pas, tous les robots de recherche pourront accéder à toutes les pages du site Web qui ne sont pas protégées par mot de passe

[Principe ]

Le protocole Robots est un code d'éthique commun à la communauté Internet internationale. Il est établi sur la base des principes suivants :

1. La technologie de recherche doit être au service de l'être humain, tout en respectant les souhaits. des fournisseurs d'informations et maintenir leurs droits à la confidentialité ;

　2. Les sites Web ont l'obligation de protéger les informations personnelles et la vie privée de leurs utilisateurs contre toute violation

　[Note] robots.txt doit être placé dans le répertoire racine d'un site, et le nom du fichier doit être tout en minuscules

Ecriture

[User-agent]

　 Le * dans le code ci-dessous représente tous les types de moteurs de recherche. * est un caractère générique, indiquant toutes les recherches Robot

User-agent: *

Le code suivant représente le robot de recherche de Baidu

User-agent: Baiduspider

【Interdire】

Le code suivant représente Il est interdit d'explorer les répertoires sous le répertoire admin

Disallow: /admin/

Le code suivant signifie qu'il est interdit pour explorer toutes les images au format .jpg sur la page Web

Disallow: /.jpg$

Le code suivant indique que l'exploration du fichier adc.html sous le dossier ab est interdite

Disallow:/ab/adc.html

Le code suivant indique que l'accès à toutes les URL contenant des points d'interrogation (?) dans le site Web est interdit

Disallow: /*?*

Le code suivant signifie que l'accès l'accès à toutes les pages du site Web est interdit

Disallow: /

[Autoriser]

Le code suivant signifie que l'accès est autorisé aux URL avec ".html" comme suffixe

Allow: .html$

Le code suivant indique que l'intégralité du répertoire de tmp peut être explorée

Allow: /tmp

Utilisation

Le code suivant signifie que tous les robots sont autorisés à accéder à toutes les pages du site

User-agent: *Allow:　/

Le code suivant signifie qu'il est interdit à tous les moteurs de recherche d'accéder n'importe quelle page du site Web Partie

User-agent: *Disallow: /

Le code suivant indique qu'il est interdit aux robots de Baidu d'accéder à tous les répertoires de son site Web

User-agent: Baiduspider
Disallow: /

Le code suivant indique qu'il est interdit. Tous les moteurs de recherche accèdent aux fichiers des répertoires cgi-bin, tmp et ~joe du site

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

Mythe

[Mythe 1] : Tous les fichiers du site Web doivent être explorés par des araignées, il n'est donc pas nécessaire d'ajouter le fichier robots.txt. Quoi qu'il en soit, si le fichier n'existe pas, tous les robots de recherche pourront accéder à toutes les pages du site Web qui ne sont pas protégées par mot de passe par défaut

Chaque fois qu'un utilisateur tente d'accéder à une URL inexistante, le serveur le fera. enregistrez 404 dans le journal Erreur (le fichier est introuvable). Chaque fois qu'un moteur de recherche recherche un fichier robots.txt qui n'existe pas, le serveur enregistre également une erreur 404 dans le journal, donc un fichier robots.txt

doit être ajouté au site Web [Malentendu 2] : Dans les robots Tous les fichiers du fichier .txt peuvent être explorés par les robots de recherche, ce qui peut augmenter le taux d'inclusion du site Web

Même si les scripts de programme, les feuilles de style et autres fichiers du site Web sont inclus par les robots, ils le feront n'augmente pas le taux d'inclusion du site Web. Le taux d'inclusion ne fera que gaspiller les ressources du serveur. Par conséquent, il doit être défini dans le fichier robots.txt pour ne pas permettre aux robots de recherche d'indexer ces fichiers

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Mathématiques, nombresArticle suivant：Mathématiques, nombres

Articles Liés

Voir plus