robots.txt とは何ですか?-SEO-php.cn

ホームページ

トピック

SEO

robots.txt とは何ですか?

藏色散人

May 23, 2019 am 11:01 AM

Robots.txt は、検索エンジンが Web サイトにアクセスしたときに最初に参照するファイルで、検索エンジンによる Web サイトコンテンツのクロール範囲を指定するために使用されるテキストファイルです。検索スパイダーがサイトを訪問すると、まずサイトのルートディレクトリに robots.txt が存在するかどうかを確認し、存在する場合はファイル内の内容に基づいて訪問範囲を決定します。

robots.txt とは何ですか?

ウェブサイト構築の過程で、検索エンジンによってクロールされたくないコンテンツや、検索エンジンに表示されたくないコンテンツがいくつか出てきます。インターネットだからどうすればいいの？？私の xx コンテンツをクロールしないように検索エンジンに指示するにはどうすればよいですか?ここでロボットが役に立ちます。

Robots.txt は、Web サイトにアクセスしたときに検索エンジンが最初に調べるファイルです。 Robots.txt ファイルは、サーバー上のどのファイルを表示できるかをスパイダーに伝えます。

検索スパイダーがサイトを訪問すると、まずサイトのルートディレクトリに robots.txt が存在するかどうかを確認し、存在する場合はその内容に基づいてアクセス範囲を決定します。ファイル; if ファイルが存在しない場合、すべての検索スパイダーは、パスワードで保護されていない Web サイト上のすべてのページにアクセスできます。

構文: 最も単純な robots.txt ファイルでは 2 つのルールが使用されます:

• ユーザーエージェント: 次のルールが適用されるロボット

• 禁止: Web ページが

ただし、いくつかの点に注意する必要があります:

1.robots.txt は Web サイトのルートディレクトリ

に保存する必要があります。

2. ファイル名は robots.txt とし、ファイル名はすべて小文字にする必要があります。

3.Robots.txt は、検索エンジンが Web サイトにアクセスする最初のページです

4.Robots.txt ではユーザーエージェントを指定する必要があります

robots.txt の誤解

誤解 1: Web サイト上のすべてのファイルはスパイダーによってクロールされる必要があるため、robots.txt ファイルを追加する必要はありません。とにかく、ファイルが存在しない場合、すべての検索スパイダーは、デフォルトでパスワードで保護されていない Web サイト上のすべてのページにアクセスできます。

ユーザーが存在しない URL にアクセスしようとすると、サーバーはログに 404 エラー (ファイルが見つかりません) を記録します。検索スパイダーが存在しない robots.txt ファイルを検索するたびに、サーバーはログに 404 エラーを記録するため、Web サイトに robots.txt を追加する必要があります。

誤解 2: robots.txt ファイル内のすべてのファイルが検索スパイダーによってクロールされるように設定すると、Web サイトの包含率が高まる可能性があります。

Web サイト内のプログラムスクリプト、スタイルシート、その他のファイルがスパイダーによってインクルードされたとしても、Web サイトのインクルード率は向上せず、サーバーリソースを浪費するだけです。したがって、検索スパイダーによるこれらのファイルのインデックス作成を許可しないように、robots.txt ファイルで設定する必要があります。

除外する必要がある特定のファイルについては、「Robots.txt の使用に関するヒント」の記事で詳しく説明されています。

誤解 3: 検索スパイダーは Web ページをクロールするときにサーバーリソースを無駄にします robots.txt ファイルに設定されているすべての検索スパイダーがすべての Web ページをクロールできるわけではありません。

この場合、Web サイト全体が検索エンジンによってインデックス付けされなくなります。

robots.txt 使用上のヒント

1. ユーザーが存在しない URL にアクセスしようとすると、サーバーは 404 エラー (ファイルが見つかりません) を記録します。 ) ログに記録されます)。検索スパイダーが存在しない robots.txt ファイルを検索するたびに、サーバーはログに 404 エラーを記録するため、サイトに robots.txt を追加する必要があります。

2. Web サイト管理者は、サーバーのパフォーマンスを確保するために、スパイダープログラムをサーバー上の特定のディレクトリから遠ざける必要があります。例: ほとんどの Web サイトサーバーのプログラムは「cgi-bin」ディレクトリに保存されているため、すべてのプログラムファイルがスパイダーによってインデックス付けされるのを防ぐために、robots.txt ファイルに「Disallow: /cgi-bin」を追加することをお勧めします。 . サーバーリソースを節約できます。一般的な Web サイトでスパイダーによってクロールされる必要のないファイルには、バックグラウンド管理ファイル、プログラムスクリプト、添付ファイル、データベースファイル、エンコードファイル、スタイルシートファイル、テンプレートファイル、ナビゲーション画像および背景画像などが含まれます。

以下は、VeryCMS の robots.txt ファイルです:

ユーザーエージェント: *

許可しない: /admin/ バックグラウンド管理ファイル

許可しない: /require/ プログラムファイル

許可しない: /attachment/ Attachment

許可しない: /images/ Picture

許可しない: /data/ データベースファイル

許可しない: / template/ テンプレートファイル

# 許可しない: /css/ スタイルシートファイル

# 許可しない: /lang/ エンコードファイル

# 許可しない: /script/ スクリプトファイル

3. Web サイトに動的 Web ページがあり、これらの動的 Web ページの静的コピーを作成して、検索スパイダーがクロールしやすくする場合。次に、動的な Web ページがスパイダーによってインデックス付けされるのを防ぎ、これらの Web ページが重複したコンテンツを含んでいると見なされないように、robots.txt ファイル内で設定を行う必要があります。

4. robots.txt ファイルには、サイトマップファイルへのリンクを直接含めることもできます。このように:

サイトマップ: http://www.***.com/sitemap.xml

現在これをサポートしている検索エンジン会社には、Google、Yahoo、Ask、MSN などがあります。中国の検索エンジン企業は明らかにこの輪に属していない。この利点は、ウェブマスターが独自のサイトマップファイルを送信するために各検索エンジンのウェブマスターツールや同様のウェブマスターセクションに移動する必要がないことです。検索エンジンスパイダーは robots.txt ファイルをクロールして、その中のコンテンツを読み取ります。サイトマップパスを検索し、リンクされた Web ページをクロールします。

5. robots.txt ファイルを適切に使用すると、アクセス時のエラーを回避できます。たとえば、検索者をショッピングカートページに直接移動させることはできません。ショッピングカートを含める必要はないため、robots.txt ファイルに設定して、検索者がショッピングカートページに直接アクセスできないようにすることができます

以上がrobots.txt とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Google Lawyer：YouTubeビューの1％未満が検索から来ていますApr 24, 2025 am 10:45 AM

Googleの法定代理人は最近、YouTubeビューの1％未満がGoogle検索クリックに由来することを明らかにしました。声明：裁判所の訴訟中に、Googleを代表する弁護士ジョン・シュミドルインは、「約1％未満

Google Searchが推測ルールAPIを使用して検索を高速化するようになりましたApr 24, 2025 am 09:19 AM

Chromeブラウザの改善Google検索速度：投機ルールAPIを使用して検索結果を高速化します Googleは、ChromeブラウザーユーザーがGoogle検索を使用するときにより速く検索できると発表しました。この改善は、検索結果を予定して全体的な検索エクスペリエンスを加速する投機規則APIの利用によって促進されます。 GoogleはChrome Developer Blogに次のように書いています。「Google Searchは常に投機ルールAPIを使用して、検索結果ページから結果リンクまでナビゲーション速度を改善しており、最新の更新を新しい外観を作成するために使用できるAPI機能を使用しました。

3月に開始するGoogle News Automated PublicatedページApr 24, 2025 am 09:18 AM

Google Newsは完全に自動化されています。 3月から、Googleはすべての出版ページを自動的に生成し、パブリッシャーセンターでマニュアルカスタマイズオプションを終了します。これは、2024年4月の発表に続き、手動で出版物を段階的に段階的に発表します

SEOが大好きな7つの理由Apr 23, 2025 am 10:38 AM

SEO：デジタルマーケティング担当者向けのラブストーリー多くの人がSEOの複雑さと絶え間ない進化から遠く離れています。しかし、他の人にとっては、それはすべてを消費する情熱であり、彼らが関与し続けるダイナミックなパズルです。このバレンタインデーは、SEOがアルゴールを超越する理由を探りましょう

Googleはメンバーの価格設定ベータタイプを商人リストの価格設定データに追加しますApr 22, 2025 am 11:34 AM

Googleは、メンバーの価格設定の新しいベータ機能を備えたマーチャントリスト構造化データガイドラインを強化します。 Googleが発表したこの更新では、validformembertierプロパティ（既存のPricetypeプロパティと並んで）をより正確にrに導入します。

Googleはほとんどのレビューカウントバグを確認していることを確認していますが、いくつかはまだ行くことができますApr 22, 2025 am 11:00 AM

先週、GoogleはGoogleビジネスプロファイルに影響を与える大きなバグを経験しました。表示されたレビュー数は不正確で、実際に存在するよりも少ないレビューを示しています。レビューは削除されませんでした。その後、Googleはメジャーを記載するアップデートを発行しました

驚くべきSEOの結果のための漏斗ではなく、spiderwebsを考えてくださいApr 22, 2025 am 09:31 AM

デジタルマーケティングの礎である長い間、目標到達プロセスは、今日のデータが豊富なオンラインランドスケープではますます不十分になっています。ユーザーがオンラインで情報と対話する方法の現実は、はるかに複雑です。利用可能なデータが豊富にあり、t

より良いランキングとよりスマートなSEOフレームワークへのエンゲージメントを推進する

従来のマーケティングファンネルは、ユーザーが今日どのように対話するかを反映しなくなりました。これは、SEOの結果を傷つけています。今日のマーケティング担当者は、これまで以上に多くのデータを持っているため、より効果的なフレームワークを構築して、自然なトラフィックを駆動することができます：Spider Webモデル。相互接続された高価値ページの周りにコンテンツ戦略を構築することにより、ランキングをより速く改善し、より多くのオーガニックトラフィックを取得し、ユーザーエクスペリエンスを向上させることができます。「優れたSEOの結果を達成するために、目標到達プロセスの代わりにスパイダーウェブを使用して思考」に関するライアンブロックのセミナーに参加してください。伝統的な漏斗が自然な交通機会を無駄にする理由現代のバイヤーの旅に関するガートナーと主要な研究者の視点ランキングとエンゲージメントを改善するためにコンテンツ戦略を調整する方法

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、