ホームページ >ウェブフロントエンド >jsチュートリアル >クローラープロトコルロボットの紹介
ロボット プロトコル (クローラー プロトコル、ロボット プロトコルなどとも呼ばれる) の正式名は、「ロボット排除プロトコル」です。Web サイトは、ロボット プロトコルを使用して、どのページがクロール可能か、どのページがクロールできないかを検索エンジンに伝えます。這った。この記事では、クローラープロトコルロボットについて詳しく紹介します
ロボットプロトコルの正式名称は「ロボット排除プロトコル」で、その機能は、どのページがクロール可能か、どのページがクロールできないかなどの基準をロボットファイルを通じて検索エンジンに伝えることです。 。これはテキスト ファイルの形式で Web サイトのルート ディレクトリに配置され、一般的なテキスト エディタで変更および編集できます。 Web マスターにとって、robots.txt ファイルを適切に作成すると、検索エンジンをより適切に使用できるようになり、一部の低品質のページがブロックされ、Web サイトの品質と検索エンジンの使いやすさが向上します。
具体的な書き方は以下の通りです:
(*はワイルドカード文字)
User-agent: * はすべての検索エンジンの種類を表します、
Disallow: /admin/ ここでの定義は、 adminディレクトリ配下のディレクトリ
Disallow: /require/ ここでの定義はrequireディレクトリ配下のディレクトリのクロールを禁止することです
Disallow: /ABC/ ここでの定義はABCディレクトリ配下のディレクトリのクロールを禁止することです
Disallow: / cgi-bin/*.htm アクセス禁止 / cgi-bin/ ディレクトリ(サブディレクトリを含む)内の拡張子「.htm」を持つすべての URL。
Disallow: /*?* Web サイト内の疑問符 (?) を含むすべての URL へのアクセスを禁止します
Disallow: /.jpg$ Web ページ上のすべての .jpg 形式の画像のクロールを禁止します
Disallow:/ab/adc。 html 禁止 ab フォルダーの下にある adc.html ファイルをクロールします。
Allow: /cgi-bin/ ここでの定義は、cgi-bin ディレクトリ以下のディレクトリのクロールを許可することです
Allow: /tmp ここでの定義は、tmp のディレクトリ全体のクロールを許可することです
Allow: .htm$ URL 接尾辞である「.htm」へのアクセスのみを許可します。
許可: .gif$ により、Web ページと gif 形式の画像のクロールが許可されます
サイトマップ: サイトマップは、このページがサイトマップであることをクローラーに伝えます
robots.txt ファイルはテキスト ファイルであり、検索エンジンの Web サイト 最初に表示されるファイル。 robots.txt ファイルは、サーバー上でどのファイルを表示できるかをスパイダーに通知します。検索ロボットは、サイトにアクセスすると、サイトのルート ディレクトリに robots.txt が存在するかどうかを最初に確認します。ファイルの内容に基づいてアクセス範囲を決定します。ファイルが存在しない場合、すべての検索スパイダーは、パスワードで保護されていない Web サイト上のすべてのページにアクセスできます
[原則]
ロボット プロトコルは、国際的なインターネットコミュニティにおける共通の道徳 仕様は以下の原則に基づいて定められています:
1. 検索技術は情報提供者の意向を尊重し、プライバシー権を維持しながら人間に役立つべきです
2. ウェブサイトは保護する義務があります。ユーザーの個人情報とプライバシーが侵害されることを防ぎます
【注意】robots.txtはサイトのルートディレクトリに配置し、ファイル名はすべて小文字にする必要があります
Writing
以下のコードでは * で表されるすべての検索エンジンの種類、* はすべての検索ロボットを示すワイルドカード文字です
User-agent: *
User-agent: Baiduspider
次のコードは次のことを示します管理ディレクトリの下のディレクトリをクロールすることは禁止されているということ
Disallow: /admin/
Disallow: /.jpg$
Disallow:/ab/adc.html
Disallow: /*?*
Disallow: /
以下のコードは、接尾辞「.html」の付いたURLへのアクセスが許可されていることを示しています
Allow: .html$
Allow: /tmp
使い方
User-agent: *Allow: /
User-agent: *Disallow: /
User-agent: Baiduspider Disallow: /
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
【通説 1】: Web サイト上のすべてのファイルはスパイダーによってクロールされる必要があるため、robots.txt ファイルを追加する必要はありません。とにかく、ファイルが存在しない場合、すべての検索スパイダーは、デフォルトでパスワードで保護されていない Web サイト上のすべてのページにアクセスできます
ユーザーが存在しない URL にアクセスしようとすると、サーバーは 404 エラーを記録します。 (ログ文書内に見つかりません)。検索スパイダーが存在しない robots.txt ファイルを探すたびに、サーバーはログに 404 エラーも記録するため、robots.txt を Web サイトに追加する必要があります
【誤解 2】: ロボット内。 txt ファイル すべてのファイルを検索スパイダーがクロールするように設定します。これにより、Web サイトの包含率が向上します
Web サイト内のプログラム スクリプト、スタイル シート、その他のファイルがスパイダーによって包含されたとしても、Web サイトの包含率は向上しません。サーバーリソースを無駄にするだけです。したがって、検索スパイダーがこれらのファイルのインデックスを作成できないように、robots.txt ファイルで設定する必要があります
以上がクローラープロトコルロボットの紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。