ホームページ  >  記事  >  ウェブフロントエンド  >  クローラープロトコルロボットの紹介

クローラープロトコルロボットの紹介

巴扎黑
巴扎黑オリジナル
2017-07-19 15:47:502606ブラウズ

前の言葉

ロボット プロトコル (クローラー プロトコル、ロボット プロトコルなどとも呼ばれる) の正式名は、「ロボット排除プロトコル」です。Web サイトは、ロボット プロトコルを使用して、どのページがクロール可能か、どのページがクロールできないかを検索エンジンに伝えます。這った。この記事では、クローラープロトコルロボットについて詳しく紹介します

ロボットプロトコルの正式名称は「ロボット排除プロトコル」で、その機能は、どのページがクロール可能か、どのページがクロールできないかなどの基準をロボットファイルを通じて検索エンジンに伝えることです。 。これはテキスト ファイルの形式で Web サイトのルート ディレクトリに配置され、一般的なテキスト エディタで変更および編集できます。 Web マスターにとって、robots.txt ファイルを適切に作成すると、検索エンジンをより適切に使用できるようになり、一部の低品質のページがブロックされ、Web サイトの品質と検索エンジンの使いやすさが向上します。

具体的な書き方は以下の通りです:

(*はワイルドカード文字)


User-agent: * はすべての検索エンジンの種類を表します、

Disallow: /admin/ ここでの定義は、 adminディレクトリ配下のディレクトリ

Disallow: /require/ ここでの定義はrequireディレクトリ配下のディレクトリのクロールを禁止することです

Disallow: /ABC/ ここでの定義はABCディレクトリ配下のディレクトリのクロールを禁止することです

Disallow: / cgi-bin/*.htm アクセス禁止 / cgi-bin/ ディレクトリ(サブディレクトリを含む)内の拡張子「.htm」を持つすべての URL。

Disallow: /*?* Web サイト内の疑問符 (?) を含むすべての URL へのアクセスを禁止します

Disallow: /.jpg$ Web ページ上のすべての .jpg 形式の画像のクロールを禁止します

Disallow:/ab/adc。 html 禁止 ab フォルダーの下にある adc.html ファイルをクロールします。

Allow: /cgi-bin/ ここでの定義は、cgi-bin ディレクトリ以下のディレクトリのクロールを許可することです

Allow: /tmp ここでの定義は、tmp のディレクトリ全体のクロールを許可することです

Allow: .htm$ URL 接尾辞である「.htm」へのアクセスのみを許可します。

許可: .gif$ により、Web ページと gif 形式の画像のクロールが許可されます

サイトマップ: サイトマップは、このページがサイトマップであることをクローラーに伝えます

概要

robots.txt ファイルはテキスト ファイルであり、検索エンジンの Web サイト 最初に表示されるファイル。 robots.txt ファイルは、サーバー上でどのファイルを表示できるかをスパイダーに通知します。検索ロボットは、サイトにアクセスすると、サイトのルート ディレクトリに robots.txt が存在するかどうかを最初に確認します。ファイルの内容に基づいてアクセス範囲を決定します。ファイルが存在しない場合、すべての検索スパイダーは、パスワードで保護されていない Web サイト上のすべてのページにアクセスできます

[原則]

ロボット プロトコルは、国際的なインターネットコミュニティにおける共通の道徳 仕様は以下の原則に基づいて定められています:

1. 検索技術は情報提供者の意向を尊重し、プライバシー権を維持しながら人間に役立つべきです

2. ウェブサイトは保護する義務があります。ユーザーの個人情報とプライバシーが侵害されることを防ぎます

【注意】robots.txtはサイトのルートディレクトリに配置し、ファイル名はすべて小文字にする必要があります

Writing

【ユーザーエージェント】

以下のコードでは * で表されるすべての検索エンジンの種類、* はすべての検索ロボットを示すワイルドカード文字です

User-agent: *
次のコードは Baidu の検索ロボットを表します

User-agent: Baiduspider
【Disallow】

次のコードは次のことを示します管理ディレクトリの下のディレクトリをクロールすることは禁止されているということ

Disallow: /admin/
このコードは、Webページ上のすべての.jpg形式の画像をクロールすることが禁止されていることを示しています

Disallow: /.jpg$
次のコードは、Webページ上のすべての.jpg形式の画像をクロールすることが禁止されていることを示していますabフォルダ配下のadc.htmlファイル

Disallow:/ab/adc.html
以下のコードは、疑問符(?)を含む全ての画像へのアクセスを示すURL

Disallow: /*?*
以下のコードは、Webサイト内の全てのページへのアクセスが禁止されることを示します

Disallow: /
【許可】

以下のコードは、接尾辞「.html」の付いたURLへのアクセスが許可されていることを示しています

Allow: .html$
以下のコードは、許可を示しています tmpのディレクトリ全体をクロールします

Allow: /tmp

使い方

次のコードは、すべてのロボットが Web サイトのすべてのページにアクセスできることを意味します

User-agent: *Allow: /
次のコードは、すべての検索エンジンが Web サイトのどの部分にもアクセスすることを禁止することを意味します

User-agent: *Disallow: /
以下のコードは、Baidu がロボットはその Web サイトの下にあるすべてのディレクトリへのアクセスを禁止されています

User-agent: Baiduspider
Disallow: /
以下のコードは、すべての検索エンジンが Web サイトの cgi-bin、tmp、および ~joe ディレクトリ内のファイルへのアクセスを禁止されていることを意味します

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

通説

【通説 1】: Web サイト上のすべてのファイルはスパイダーによってクロールされる必要があるため、robots.txt ファイルを追加する必要はありません。とにかく、ファイルが存在しない場合、すべての検索スパイダーは、デフォルトでパスワードで保護されていない Web サイト上のすべてのページにアクセスできます

ユーザーが存在しない URL にアクセスしようとすると、サーバーは 404 エラーを記録します。 (ログ文書内に見つかりません)。検索スパイダーが存在しない robots.txt ファイルを探すたびに、サーバーはログに 404 エラーも記録するため、robots.txt を Web サイトに追加する必要があります

【誤解 2】: ロボット内。 txt ファイル すべてのファイルを検索スパイダーがクロールするように設定します。これにより、Web サイトの包含率が向上します

Web サイト内のプログラム スクリプト、スタイル シート、その他のファイルがスパイダーによって包含されたとしても、Web サイトの包含率は向上しません。サーバーリソースを無駄にするだけです。したがって、検索スパイダーがこれらのファイルのインデックスを作成できないように、robots.txt ファイルで設定する必要があります

以上がクローラープロトコルロボットの紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
前の記事:数学、数字次の記事:数学、数字