搜索
首页专题SEO什么是robots.txt?

什么是robots.txt?

May 23, 2019 am 11:01 AM

robots.txt是搜索引擎访问网站时要查看的第一个文件,是用于规定搜索引擎对网站内容抓取范围的文本文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,则会按照文件中的内容来确定访问的范围。

什么是robots.txt?

在网站建设过程中我们会有一部分内容不希望被搜索引擎抓取到或者不希望其在互联网中出现,那么要怎么办呢?我要怎么跟搜索引擎说你不要抓取我的xx内容呢?这时候robots就派上用场了。

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

语法:最简单的 robots.txt 文件使用两条规则:

• User-Agent: 适用下列规则的漫游器

• Disallow: 要拦截的网页

但是我们需要注意的几点:

1.robots.txt必须存放在网站的根目录下,

2.其命名必须为robots.txt,且文件名必须全部小写。

3.Robots.txt是搜索引擎访问网站的第一个页面

4.Robots.txt中必须指明user-agent

robots.txt使用误区

 误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。

 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。

 误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。

 网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。

 具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。

 误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。

 如果这样的话,会导致整个网站不能被搜索引擎收录。

robots.txt使用技巧

 1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。

 2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

 下面是VeryCMS里的robots.txt文件:

 User-agent: *

 Disallow: /admin/ 后台管理文件

 Disallow: /require/ 程序文件

 Disallow: /attachment/ 附件

 Disallow: /images/ 图片

 Disallow: /data/ 数据库文件

 Disallow: /template/ 模板文件

 Disallow: /css/ 样式表文件

 Disallow: /lang/ 编码文件

 Disallow: /script/ 脚本文件

 3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。

 4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:

 Sitemap: http://www.***.com/sitemap.xml

 目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。

 5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面

以上是什么是robots.txt?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
Google错误导致评论退出本地列表Google错误导致评论退出本地列表Apr 25, 2025 am 10:10 AM

最近,许多本地企业在其Google业务资料中显示的评论数量大幅下降。 影响Google搜索和Google Maps列表的这个问题在周五开始浮出水面,并促使Wi

技术SEO移民:如何查找和修复隐藏的错误技术SEO移民:如何查找和修复隐藏的错误Apr 25, 2025 am 10:08 AM

网站迁移:SEO惊喜的雷区 即使对于经验丰富的技术SEO,网站迁移也是具有挑战性的。 无论您的计划多么细致,意外的问题都不可避免地出现。 因此,移民后监测是

增加SEO收入而不会失去客户的7种方法增加SEO收入而不会失去客户的7种方法Apr 25, 2025 am 09:19 AM

增强SEO收入:七项验证的策略来增加客户付款 随着营销预算的收紧和Google报告丰富的收入,有效销售SEO服务比以往任何时候都更为重要。本文概述了七种验证的方法t

Google律师:不到1%的YouTube视图来自搜索Google律师:不到1%的YouTube视图来自搜索Apr 24, 2025 am 10:45 AM

Google法律代表最近透露,不到1%的YouTube视图源自Google搜索点击。 声明:在法庭程序中,代表Google的律师约翰·施密特林(John Schmidtlein)表示,“大约不到1%

Google搜索现在使用投机规则API来更快地搜索Google搜索现在使用投机规则API来更快地搜索Apr 24, 2025 am 09:19 AM

Chrome浏览器提升Google搜索速度:利用Speculation Rules API加速搜索结果 Google宣布,Chrome浏览器用户在使用Google搜索时,搜索速度将得到提升。这项改进得益于对Speculation Rules API的利用,通过预取搜索结果来加快整体搜索体验。 Google在Chrome开发者博客中写道:“Google搜索一直以来都在利用Speculation Rules API来提升从搜索结果页面到结果链接的导航速度,并且我们已经使用了一些API特性,这些特性可

Google新闻自动出版页面将于3月开始Google新闻自动出版页面将于3月开始Apr 24, 2025 am 09:18 AM

Google新闻将全自动。 从3月开始,Google将自动生成所有发布页面,并在发布者中心结束手动自定义选项。这是2024年4月的公告逐步淘汰手动出版物additi

我们爱SEO的7个原因我们爱SEO的7个原因Apr 23, 2025 am 10:38 AM

SEO:数字营销人员的爱情故事 许多人回避SEO的复杂性和不断发展。但是对于其他人来说,这是一种无所不在的激情,这是一种使他们参与的动态难题。 这个情人节,让我们探讨为什么SEO超越Algor

Google将成员定价beta类型添加到商人列表定价结构化数据Google将成员定价beta类型添加到商人列表定价结构化数据Apr 22, 2025 am 11:34 AM

Google使用成员定价的新Beta功能增强了其商家列表结构化数据指南。 Google宣布的此更新介绍了有效的FormemberTier属性(以及现有PriceType属性)以更准确地r

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)