Maison > Article > interface Web > Introduction aux robots de protocole sur chenilles
Le nom complet du protocole Robots (également connu sous le nom de protocole de robot, protocole de robot, etc.) est « Protocole d'exclusion de robots ». Les sites Web utilisent le protocole Robots pour indiquer aux moteurs de recherche quelles pages peuvent être consultées. crawled , quelles pages ne peuvent pas être explorées. Cet article présentera en détail les robots du protocole d'exploration
Le nom complet du protocole Robots est "Robots Exclusion Protocol". Sa fonction est d'indiquer aux moteurs de recherche via les fichiers Robots quelles pages peuvent être explorées et quelles pages ne peuvent pas être explorées. . Récupération, récupération de normes, etc. Il est placé dans le répertoire racine du site Web sous la forme d'un fichier texte, qui peut être modifié et édité avec n'importe quel éditeur de texte courant. Pour les webmasters, écrire correctement le fichier robots.txt peut permettre une utilisation plus raisonnable des moteurs de recherche, bloquer certaines pages de mauvaise qualité et améliorer la qualité du site Web et sa convivialité pour les moteurs de recherche.
s'écrit spécifiquement comme suit :
(* est un caractère générique)
User-agent : * représente tous les types de moteurs de recherche ,
Interdire : /admin/ La définition ici est d'interdire l'exploration du répertoire sous le répertoire admin
Interdire : /require/ La définition ici est d'interdire l'exploration du répertoire sous le répertoire require
Disallow : /ABC/ La définition ici est d'interdire l'exploration des répertoires sous le répertoire ABC
Disallow: /cgi-bin/*.htm Il interdit l'accès à tous les fichiers avec le ".htm " dans le répertoire /cgi-bin/. URL (y compris les sous-répertoires).
Interdire : /*?* Interdit l'accès à toutes les URL contenant des points d'interrogation (?) sur le site Web
Interdire : /.jpg$ Interdit l'exploration de toutes les images au format .jpg sur la page Web
Disallow:/ab/adc.html Interdit l'exploration du fichier adc.html sous le dossier ab.
Autoriser : /cgi-bin/ La définition ici est d'autoriser l'exploration des répertoires sous le répertoire cgi-bin
Autoriser : /tmp La définition ici est d'autoriser l'exploration de l'intégralité du répertoire de tmp
Autoriser : .htm$ autorise uniquement l'accès aux URL avec le suffixe ".htm".
Autoriser : .gif$ permet d'explorer les pages Web et les images au format gif
Plan du site : le plan du site indique aux robots d'exploration que cette page est un plan du site
robots Un fichier .txt est un fichier texte qui est le premier fichier consulté par les moteurs de recherche lors de la visite d'un site Web. Le fichier robots.txt indique à l'araignée quels fichiers peuvent être consultés sur le serveur
Lorsqu'une araignée de recherche visite un site, elle vérifiera d'abord si robots.txt existe dans le répertoire racine du site. , Les robots de recherche détermineront l'étendue de l'accès en fonction du contenu du fichier ; si le fichier n'existe pas, tous les robots de recherche pourront accéder à toutes les pages du site Web qui ne sont pas protégées par mot de passe
[Principe ]
Le protocole Robots est un code d'éthique commun à la communauté Internet internationale. Il est établi sur la base des principes suivants :
1. La technologie de recherche doit être au service de l'être humain, tout en respectant les souhaits. des fournisseurs d'informations et maintenir leurs droits à la confidentialité ;
2. Les sites Web ont l'obligation de protéger les informations personnelles et la vie privée de leurs utilisateurs contre toute violation
[Note] robots.txt doit être placé dans le répertoire racine d'un site, et le nom du fichier doit être tout en minuscules
[User-agent]
Le * dans le code ci-dessous représente tous les types de moteurs de recherche. * est un caractère générique, indiquant toutes les recherches Robot
User-agent: *
Le code suivant représente le robot de recherche de Baidu
User-agent: Baiduspider
【Interdire】
Le code suivant représente Il est interdit d'explorer les répertoires sous le répertoire admin
Disallow: /admin/
Le code suivant signifie qu'il est interdit pour explorer toutes les images au format .jpg sur la page Web
Disallow: /.jpg$
Le code suivant indique que l'exploration du fichier adc.html sous le dossier ab est interdite
Disallow:/ab/adc.html
Le code suivant indique que l'accès à toutes les URL contenant des points d'interrogation (?) dans le site Web est interdit
Disallow: /*?*
Le code suivant signifie que l'accès l'accès à toutes les pages du site Web est interdit
Disallow: /
[Autoriser]
Le code suivant signifie que l'accès est autorisé aux URL avec ".html" comme suffixe
Allow: .html$
Le code suivant indique que l'intégralité du répertoire de tmp peut être explorée
Allow: /tmp
Le code suivant signifie que tous les robots sont autorisés à accéder à toutes les pages du site
User-agent: *Allow: /
Le code suivant signifie qu'il est interdit à tous les moteurs de recherche d'accéder n'importe quelle page du site Web Partie
User-agent: *Disallow: /
Le code suivant indique qu'il est interdit aux robots de Baidu d'accéder à tous les répertoires de son site Web
User-agent: Baiduspider Disallow: /
Le code suivant indique qu'il est interdit. Tous les moteurs de recherche accèdent aux fichiers des répertoires cgi-bin, tmp et ~joe du site
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
[Mythe 1] : Tous les fichiers du site Web doivent être explorés par des araignées, il n'est donc pas nécessaire d'ajouter le fichier robots.txt. Quoi qu'il en soit, si le fichier n'existe pas, tous les robots de recherche pourront accéder à toutes les pages du site Web qui ne sont pas protégées par mot de passe par défaut
Chaque fois qu'un utilisateur tente d'accéder à une URL inexistante, le serveur le fera. enregistrez 404 dans le journal Erreur (le fichier est introuvable). Chaque fois qu'un moteur de recherche recherche un fichier robots.txt qui n'existe pas, le serveur enregistre également une erreur 404 dans le journal, donc un fichier robots.txt
doit être ajouté au site Web [Malentendu 2] : Dans les robots Tous les fichiers du fichier .txt peuvent être explorés par les robots de recherche, ce qui peut augmenter le taux d'inclusion du site Web
Même si les scripts de programme, les feuilles de style et autres fichiers du site Web sont inclus par les robots, ils le feront n'augmente pas le taux d'inclusion du site Web. Le taux d'inclusion ne fera que gaspiller les ressources du serveur. Par conséquent, il doit être défini dans le fichier robots.txt pour ne pas permettre aux robots de recherche d'indexer ces fichiers
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!