Rumah >hujung hadapan web >tutorial js >关于爬虫协议robots介绍

关于爬虫协议robots介绍

巴扎黑asal: 2017-07-19 15:47:502740semak imbas

前面的话

　　Robots协议(也称为爬虫协议、机器人协议等)全称是“网络爬虫排除标准”(Robots Exclusion Protocol)，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。本文将详细介绍爬虫协议robots

Robots协议的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），它的功能是通过Robots文件告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，抓取的标准等。它以一个文本文件的形式放在网站的根目录中，用任何一个常见的文本编辑器都可以对其进行修改和编辑。对于站长来说，合理的书写robots.txt文件可以更合理的利用搜索引擎，屏蔽掉一些低质量的页面，提高网站质量和对搜索引擎的友好度。

具体写法如下：

（*为通配符）

User-agent: * 代表的所有的搜索引擎种类，

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录）。

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图告诉爬虫这个页面是网站地图

概述

　　robots.txt文件是一个文本文件，是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的

　　当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面

【原则】

　　Robots协议是国际互联网界通行的道德规范，基于以下原则建立：

　　1、搜索技术应服务于人类，同时尊重信息提供者的意愿，并维护其隐私权；

　　2、网站有义务保护其使用者的个人信息和隐私不被侵犯

　　[注意]robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写

写法

【User-agent】

　　下面代码中*代表的所有的搜索引擎种类，*是一个通配符，表示所有的搜索机器人

User-agent: *

　　下面代码表示百度的搜索机器人

User-agent: Baiduspider

【Disallow】

　　下面代码表示禁止爬寻admin目录下面的目录

Disallow: /admin/

　　下面代码表示禁止抓取网页所有的.jpg格式的图片

Disallow: /.jpg$

　　下面代码表示禁止爬取ab文件夹下面的adc.html文件

Disallow:/ab/adc.html

　　下面代码表示禁止访问网站中所有包含问号 (?) 的网址

Disallow: /*?*

　　下面代码表示禁止访问网站中所有页面

Disallow: /

【Allow】

　　下面代码表示允许访问以".html"为后缀的URL

Allow: .html$

　　下面代码表示允许爬寻tmp的整个目录

Allow: /tmp

用法

　　下面代码表示允许所有的robot访问网站所有的页面

User-agent: *Allow:　/

　　下面代码表示禁止所有搜索引擎访问网站的任何部分

User-agent: *Disallow: /

　　下面代码表示禁止百度的机器人访问其网站下其所有的目录

User-agent: Baiduspider
Disallow: /

　　下面代码表示禁止所有搜索引擎访问网站的cgi-bin、tmp、~joe这三个目录下的文件

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

误区

　　【误区一】：网站上的所有文件都需要蜘蛛抓取，那就没必要在添加robots.txt文件了。反正如果该文件不存在，所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面

　　每当用户试图访问某个不存在的URL时，服务器都会在日志中记录404错误（无法找到文件）。每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器也将在日志中记录一条404错误，所以应该在网站中添加一个robots.txt

　　【误区二】：在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取，这样可以增加网站的收录率

　　网站中的程序脚本、样式表等文件即使被蜘蛛收录，也不会增加网站的收录率，还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件

Atas ialah kandungan terperinci 关于爬虫协议robots介绍. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Math，NumberArtikel seterusnya：如何用原生js制作标题与内容保持4行的效果代码分享

Artikel berkaitan

Lihat lagi