Robots.txt は、検索エンジンが Web サイトにアクセスしたときに最初に参照するファイルで、検索エンジンによる Web サイト コンテンツのクロール範囲を指定するために使用されるテキスト ファイルです。検索スパイダーがサイトを訪問すると、まずサイトのルート ディレクトリに robots.txt が存在するかどうかを確認し、存在する場合はファイル内の内容に基づいて訪問範囲を決定します。
ウェブサイト構築の過程で、検索エンジンによってクロールされたくないコンテンツや、検索エンジンに表示されたくないコンテンツがいくつか出てきます。インターネットだからどうすればいいの??私の xx コンテンツをクロールしないように検索エンジンに指示するにはどうすればよいですか?ここでロボットが役に立ちます。
Robots.txt は、Web サイトにアクセスしたときに検索エンジンが最初に調べるファイルです。 Robots.txt ファイルは、サーバー上のどのファイルを表示できるかをスパイダーに伝えます。
検索スパイダーがサイトを訪問すると、まずサイトのルート ディレクトリに robots.txt が存在するかどうかを確認し、存在する場合はその内容に基づいてアクセス範囲を決定します。ファイル; if ファイルが存在しない場合、すべての検索スパイダーは、パスワードで保護されていない Web サイト上のすべてのページにアクセスできます。
構文: 最も単純な robots.txt ファイルでは 2 つのルールが使用されます:
• ユーザー エージェント: 次のルールが適用されるロボット
• 禁止: Web ページが
ただし、いくつかの点に注意する必要があります:
1.robots.txt は Web サイトのルート ディレクトリ
に保存する必要があります。2. ファイル名は robots.txt とし、ファイル名はすべて小文字にする必要があります。
3.Robots.txt は、検索エンジンが Web サイトにアクセスする最初のページです
4.Robots.txt ではユーザー エージェントを指定する必要があります
robots.txt の誤解
誤解 1: Web サイト上のすべてのファイルはスパイダーによってクロールされる必要があるため、robots.txt ファイルを追加する必要はありません。とにかく、ファイルが存在しない場合、すべての検索スパイダーは、デフォルトでパスワードで保護されていない Web サイト上のすべてのページにアクセスできます。
ユーザーが存在しない URL にアクセスしようとすると、サーバーはログに 404 エラー (ファイルが見つかりません) を記録します。検索スパイダーが存在しない robots.txt ファイルを検索するたびに、サーバーはログに 404 エラーを記録するため、Web サイトに robots.txt を追加する必要があります。
誤解 2: robots.txt ファイル内のすべてのファイルが検索スパイダーによってクロールされるように設定すると、Web サイトの包含率が高まる可能性があります。
Web サイト内のプログラム スクリプト、スタイル シート、その他のファイルがスパイダーによってインクルードされたとしても、Web サイトのインクルード率は向上せず、サーバー リソースを浪費するだけです。したがって、検索スパイダーによるこれらのファイルのインデックス作成を許可しないように、robots.txt ファイルで設定する必要があります。
除外する必要がある特定のファイルについては、「Robots.txt の使用に関するヒント」の記事で詳しく説明されています。
誤解 3: 検索スパイダーは Web ページをクロールするときにサーバー リソースを無駄にします robots.txt ファイルに設定されているすべての検索スパイダーがすべての Web ページをクロールできるわけではありません。
この場合、Web サイト全体が検索エンジンによってインデックス付けされなくなります。
robots.txt 使用上のヒント
1. ユーザーが存在しない URL にアクセスしようとすると、サーバーは 404 エラー (ファイルが見つかりません) を記録します。 ) ログに記録されます)。検索スパイダーが存在しない robots.txt ファイルを検索するたびに、サーバーはログに 404 エラーを記録するため、サイトに robots.txt を追加する必要があります。
2. Web サイト管理者は、サーバーのパフォーマンスを確保するために、スパイダー プログラムをサーバー上の特定のディレクトリから遠ざける必要があります。例: ほとんどの Web サイト サーバーのプログラムは「cgi-bin」ディレクトリに保存されているため、すべてのプログラム ファイルがスパイダーによってインデックス付けされるのを防ぐために、robots.txt ファイルに「Disallow: /cgi-bin」を追加することをお勧めします。 . サーバーリソースを節約できます。一般的な Web サイトでスパイダーによってクロールされる必要のないファイルには、バックグラウンド管理ファイル、プログラム スクリプト、添付ファイル、データベース ファイル、エンコード ファイル、スタイル シート ファイル、テンプレート ファイル、ナビゲーション画像および背景画像などが含まれます。
以下は、VeryCMS の robots.txt ファイルです:
ユーザー エージェント: *
許可しない: /admin/ バックグラウンド管理ファイル
許可しない: /require/ プログラム ファイル
許可しない: /attachment/ Attachment
許可しない: /images/ Picture
許可しない: /data/ データベース ファイル
許可しない: / template/ テンプレート ファイル
# 許可しない: /css/ スタイル シート ファイル
# 許可しない: /lang/ エンコード ファイル
# 許可しない: /script/ スクリプト ファイル
3. Web サイトに動的 Web ページがあり、これらの動的 Web ページの静的コピーを作成して、検索スパイダーがクロールしやすくする場合。次に、動的な Web ページがスパイダーによってインデックス付けされるのを防ぎ、これらの Web ページが重複したコンテンツを含んでいると見なされないように、robots.txt ファイル内で設定を行う必要があります。
4. robots.txt ファイルには、サイトマップ ファイルへのリンクを直接含めることもできます。このように:
サイトマップ: http://www.***.com/sitemap.xml
現在これをサポートしている検索エンジン会社には、Google、Yahoo、Ask、MSN などがあります。中国の検索エンジン企業は明らかにこの輪に属していない。この利点は、ウェブマスターが独自のサイトマップ ファイルを送信するために各検索エンジンのウェブマスター ツールや同様のウェブマスター セクションに移動する必要がないことです。検索エンジン スパイダーは robots.txt ファイルをクロールして、その中のコンテンツを読み取ります。サイトマップ パスを検索し、リンクされた Web ページをクロールします。
5. robots.txt ファイルを適切に使用すると、アクセス時のエラーを回避できます。たとえば、検索者をショッピング カート ページに直接移動させることはできません。ショッピング カートを含める必要はないため、robots.txt ファイルに設定して、検索者がショッピング カート ページに直接アクセスできないようにすることができます
以上がrobots.txt とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Googleの法定代理人は最近、YouTubeビューの1%未満がGoogle検索クリックに由来することを明らかにしました。 声明:裁判所の訴訟中に、Googleを代表する弁護士ジョン・シュミドルインは、「約1%未満

Chromeブラウザの改善Google検索速度:投機ルールAPIを使用して検索結果を高速化します Googleは、ChromeブラウザーユーザーがGoogle検索を使用するときにより速く検索できると発表しました。この改善は、検索結果を予定して全体的な検索エクスペリエンスを加速する投機規則APIの利用によって促進されます。 GoogleはChrome Developer Blogに次のように書いています。「Google Searchは常に投機ルールAPIを使用して、検索結果ページから結果リンクまでナビゲーション速度を改善しており、最新の更新を新しい外観を作成するために使用できるAPI機能を使用しました。

Google Newsは完全に自動化されています。 3月から、Googleはすべての出版ページを自動的に生成し、パブリッシャーセンターでマニュアルカスタマイズオプションを終了します。これは、2024年4月の発表に続き、手動で出版物を段階的に段階的に発表します

SEO:デジタルマーケティング担当者向けのラブストーリー 多くの人がSEOの複雑さと絶え間ない進化から遠く離れています。しかし、他の人にとっては、それはすべてを消費する情熱であり、彼らが関与し続けるダイナミックなパズルです。 このバレンタインデーは、SEOがアルゴールを超越する理由を探りましょう

Googleは、メンバーの価格設定の新しいベータ機能を備えたマーチャントリスト構造化データガイドラインを強化します。 Googleが発表したこの更新では、validformembertierプロパティ(既存のPricetypeプロパティと並んで)をより正確にrに導入します。

先週、GoogleはGoogleビジネスプロファイルに影響を与える大きなバグを経験しました。 表示されたレビュー数は不正確で、実際に存在するよりも少ないレビューを示しています。 レビューは削除されませんでした。 その後、Googleはメジャーを記載するアップデートを発行しました

デジタルマーケティングの礎である長い間、目標到達プロセスは、今日のデータが豊富なオンラインランドスケープではますます不十分になっています。 ユーザーがオンラインで情報と対話する方法の現実は、はるかに複雑です。 利用可能なデータが豊富にあり、t

従来のマーケティングファンネルは、ユーザーが今日どのように対話するかを反映しなくなりました。これは、SEOの結果を傷つけています。 今日のマーケティング担当者は、これまで以上に多くのデータを持っているため、より効果的なフレームワークを構築して、自然なトラフィックを駆動することができます:Spider Webモデル。相互接続された高価値ページの周りにコンテンツ戦略を構築することにより、ランキングをより速く改善し、より多くのオーガニックトラフィックを取得し、ユーザーエクスペリエンスを向上させることができます。 「優れたSEOの結果を達成するために、目標到達プロセスの代わりにスパイダーウェブを使用して思考」に関するライアンブロックのセミナーに参加してください。 伝統的な漏斗が自然な交通機会を無駄にする理由 現代のバイヤーの旅に関するガートナーと主要な研究者の視点 ランキングとエンゲージメントを改善するためにコンテンツ戦略を調整する方法


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ホットトピック









