Maison > Article > Les sujets > Qu'est-ce que robots.txt ?
robots.txt est le premier fichier que les moteurs de recherche consultent lorsqu'ils visitent un site Web. Il s'agit d'un fichier texte utilisé pour spécifier l'étendue de l'exploration du contenu d'un site Web par les moteurs de recherche. Lorsqu'un moteur de recherche visite un site, il vérifie d'abord si le fichier robots.txt existe dans le répertoire racine du site. S'il existe, il déterminera l'étendue de la visite en fonction du contenu du fichier.
Pendant le processus de construction du site Web, nous aurons du contenu que nous ne voulons pas qu'il soit exploré par les moteurs de recherche ou qu'il apparaisse sur Internet, alors que devrions-nous faire? ? Comment puis-je dire aux moteurs de recherche de ne pas explorer mon contenu xx ? C’est là que les robots sont utiles.
robots.txt est le premier fichier que les moteurs de recherche consultent lorsqu'ils visitent un site Web. Le fichier Robots.txt indique au robot quels fichiers sur le serveur peuvent être consultés.
Lorsqu'un robot de recherche visite un site, il vérifiera d'abord si le fichier robots.txt existe dans le répertoire racine du site. S'il existe, le robot de recherche déterminera la portée de la visite en fonction du contenu qu'il contient. le fichier ; si Si le fichier n'existe pas, tous les robots de recherche pourront accéder à toutes les pages du site Web qui ne sont pas protégées par mot de passe.
Syntaxe : Le fichier robots.txt le plus simple utilise deux règles :
• User-Agent : Le robot auquel les règles suivantes s'appliquent
• Interdire : La page Web à être bloqué
Mais il y a quelques points auxquels nous devons prêter attention :
1.robots.txt doit être stocké dans le répertoire racine du site Web,
2. Son nom doit être robots.txt et le nom du fichier doit être entièrement en minuscules.
3.Robots.txt est la première page sur laquelle un moteur de recherche visite le site Web
4. L'agent utilisateur doit être spécifié dans Robots.txt
robots. Malentendus .txt
Malentendu 1 : Tous les fichiers de mon site Web doivent être explorés par des araignées, je n'ai donc pas besoin d'ajouter le fichier robots.txt. Quoi qu'il en soit, si le fichier n'existe pas, tous les robots de recherche pourront accéder à toutes les pages du site Web qui ne sont pas protégées par mot de passe par défaut.
Chaque fois qu'un utilisateur tente d'accéder à une URL qui n'existe pas, le serveur enregistrera une erreur 404 (le fichier est introuvable) dans le journal. Chaque fois qu'un robot de recherche recherche un fichier robots.txt qui n'existe pas, le serveur enregistre également une erreur 404 dans le journal, vous devez donc ajouter un fichier robots.txt à votre site Web.
Malentendu 2 : configurer tous les fichiers du fichier robots.txt pour qu'ils soient explorés par les robots de recherche peut augmenter le taux d'inclusion du site Web.
Même si les scripts de programme, les feuilles de style et autres fichiers du site Web sont inclus par des araignées, cela n'augmentera pas le taux d'inclusion du site Web et ne fera que gaspiller les ressources du serveur. Par conséquent, vous devez le définir dans le fichier robots.txt pour ne pas permettre aux robots de recherche d'indexer ces fichiers.
Les fichiers spécifiques qui doivent être exclus sont détaillés dans l'article Conseils sur l'utilisation de Robots.txt.
Malentendu 3 : les robots de recherche gaspillent les ressources du serveur lors de l'exploration des pages Web. Tous les robots de recherche définis dans le fichier robots.txt ne peuvent pas explorer toutes les pages Web.
Si tel est le cas, l'intégralité du site internet ne sera pas indexé par les moteurs de recherche.
Conseils d'utilisation du fichier robots.txt
1. Chaque fois qu'un utilisateur tente d'accéder à une URL inexistante, le serveur enregistrera une erreur 404 (le fichier est introuvable ) dans le journal ). Chaque fois qu'un moteur de recherche recherche un fichier robots.txt qui n'existe pas, le serveur enregistre également une erreur 404 dans le journal, vous devez donc ajouter un fichier robots.txt à votre site.
2. Les administrateurs de sites Web doivent éloigner les programmes Spider des répertoires de certains serveurs pour garantir les performances du serveur. Par exemple : la plupart des serveurs de sites Web ont des programmes stockés dans le répertoire "cgi-bin", c'est donc une bonne idée d'ajouter "Disallow: /cgi-bin" au fichier robots.txt pour empêcher tous les fichiers programme d'être indexés par les robots. . Peut économiser les ressources du serveur. Les fichiers des sites Web généraux qui n'ont pas besoin d'être explorés par les robots comprennent : les fichiers de gestion d'arrière-plan, les scripts de programme, les pièces jointes, les fichiers de base de données, les fichiers d'encodage, les fichiers de feuilles de style, les fichiers de modèles, les images de navigation et les images d'arrière-plan, etc.
Voici le fichier robots.txt dans VeryCMS :
Agent utilisateur : *
Interdire : /admin/ Fichier de gestion d'arrière-plan
Interdire : / require/ fichier programme
Interdire : /attachment/ attachment
Interdire : /images/ image
Interdire : /data/ fichier de base de données
Interdire : / template/ fichier modèle
Interdire : /css/ fichier de feuille de style
Interdire : /lang/ fichier d'encodage
Interdire : /script/ fichier de script
3. Si votre site Web comporte des pages Web dynamiques et que vous créez des copies statiques de ces pages Web dynamiques pour les rendre plus faciles à explorer par les robots de recherche. Ensuite, vous devez configurer les paramètres dans le fichier robots.txt pour empêcher les pages Web dynamiques d'être indexées par les robots afin de garantir que ces pages Web ne seront pas considérées comme contenant du contenu en double.
4. Le lien vers le fichier plan du site peut également être inclus directement dans le fichier robots.txt. Comme ceci :
Plan du site : http://www.***.com/sitemap.xml
Les sociétés de moteurs de recherche qui prennent actuellement en charge cela incluent Google, Yahoo, Ask et MSN. Les sociétés chinoises de moteurs de recherche ne font évidemment pas partie de ce cercle. L'avantage est que le webmaster n'a pas besoin d'accéder aux outils pour les webmasters ou aux sections webmaster similaires de chaque moteur de recherche pour soumettre son propre fichier de plan de site. L'araignée du moteur de recherche explorera le fichier robots.txt et en lira le contenu. chemin du plan du site, puis explorez les pages Web liées.
5. Une bonne utilisation du fichier robots.txt peut également éviter des erreurs lors de l'accès. Par exemple, vous ne pouvez pas permettre aux chercheurs d’accéder directement à la page du panier. Puisqu'il n'y a aucune raison pour que le panier soit inclus, vous pouvez le définir dans le fichier robots.txt pour empêcher les chercheurs d'accéder directement à la page du panier
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!