ホームページ >ウェブフロントエンド >htmlチュートリアル >robot.txt_html/css_WEB-ITnose
中国では、Web サイト管理者は robots.txt にあまり注意を払っていないようですが、ロボット .txt なしでは実現できない機能もあるので、今日石家荘 SEO はこの記事を通じて robots.txt の書き方について簡単に説明したいと思います。 ? 部分を使用するか、検索エンジンに指定されたコンテンツのみが含まれるように指定します。
検索ロボット (検索スパイダーと呼ばれる場合もあります) がサイトにアクセスすると、
robots.txt の基本入門
robots.txt は、Web サイト管理者が次の部分を宣言できるプレーン テキスト ファイルです。ロボットにアクセスさせたくない Web サイトを指定するか、検索エンジンに指定したコンテンツのみを含めるように指定します。
検索ロボット (検索スパイダーと呼ばれる場合もあります) がサイトを訪問すると、まずサイトのルート ディレクトリに robots.txt が存在するかどうかを確認し、存在する場合はその内容に従って判断します。ファイルのアクセス範囲。ファイルが存在しない場合、検索ロボットはリンクに沿ってクロールします。
さらに、robots.txt はサイトのルート ディレクトリに配置する必要があり、ファイル名はすべて小文字にする必要があります。
robots.txt の記述構文
まず、robots.txt の例を見てみましょう: http://www.shijiazhuangseo.com.cn/robots.txt
上記の特定のアドレスにアクセスしてください。 robots.txt の特定のコンテンツは次のように参照できます:
# http://www.shijiazhuangseo.com.cn の Robots.txt ファイル
# すべてのロボットがドメインをスパイダーします
ユーザー エージェント: *
禁止:
上記のテキストは、すべての検索ロボットが www.shijiazhuangseo.com..cn サイト内のすべてのファイルにアクセスできることを意味します。
# に続くテキストは説明情報です。User-agent: の後には検索ロボットの名前が続き、その後に * が続く場合は、通常、すべての検索ロボットを指します。アクセスが許可されていないファイル ディレクトリによって。
以下に、robots.txt の具体的な用途をいくつかリストします:
すべてのロボットにアクセスを許可する
ユーザーエージェント: *
許可しない:
または、空のファイルを作成できる"/robots.txt" ファイル
すべての検索エンジンがサイトのどの部分にもアクセスできないようにします
ユーザーエージェント: *
Disallow: /
すべての検索エンジンがサイトのいくつかの部分にアクセスすることを禁止しますサイト (下記) 例では 01、02、03 ディレクトリ)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
Ban特定の検索エンジンからのアクセス (以下の例では BadBot)
User-agent: BadBot
Disallow: /
特定の検索エンジンからのアクセスのみを許可 (以下の例では Crawler)
User-エージェント: ler
Disallow:
User-agent: *
Disallow: /
さらに、説明を拡張してロボットのメタについていくつかの紹介をする必要があると思います:
Robots METAタグ 主に各特定のページを対象としています。他の META タグ (使用言語、ページの説明、キーワードなど) と同様に、ロボットの META タグもページの
に配置され、特に検索エンジン ROBOTS に次の操作を指示するために使用されます。ページをクロールします。
ロボット META タグの書き込み:
Robots META タグでは大文字と小文字の区別はありません。name="Robots" はすべての検索エンジンを意味します。特定の検索エンジンに対して name="BaiduSpider" と記述することができます。コンテンツ部分には、index、noindex、follow、nofollow の 4 つのコマンド オプションがあり、コマンドは「,」で区切られます。
INDEX 命令は、検索ロボットにページをクロールするように指示します。
FOLLOW 命令は、検索ロボットがページ上のリンクに沿ってクロールを続けることができることを示します
ロボット メタのデフォルト値タグは、デフォルト値が INDEX,NOFOLLOW であるインクトミを除き、INDEX と FOLLOW です。
このように、以下の 4 つの組み合わせがあります。
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
どこ
<META NAME="ROBOTS " CONTENT = "INDEX,FOLLOW">は<META NAME="ROBOTS" CONTENT="ALL">と書くことができます
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">は<META>と書くことができますNAME="ROBOTS" CONTENT="NONE">
現時点では、検索エンジンのロボットの大多数が robots.txt のルールに準拠しているようです。 Robots META タグに関しては、現在サポートされているものは多くありません。有名な検索エンジンである GOOGLE はこれを完全にサポートしており、GOOGLE が Web ページのスナップショットを保持するかどうかを制限できるコマンド「archive」も追加しています。例:
は、サイト内のページをクロールし、ページ内のリンクに沿ってクロールすることを意味しますが、サイト上にページを保持することはありません。 GOOLGE Web ページのスナップショット。
上記は、robots.txt を記述するための Shijiazhuang SEO の構文です
まず、robots.txt の例を見てみましょう: http://www.shijiazhuangseo.com.cn/robots.txt
上記にアクセスしてください特定のアドレスを使用すると、次のように robots.txt の特定の内容を確認できます:
# http://www.shijiazhuangseo.com.cn# の Robots.txt ファイル # すべてのロボットがドメインをスパイダーします
User-エージェント: *
禁止:
上記のテキストは、すべての検索ロボットが www.shijiazhuangseo.com.cn サイト内のすべてのファイルにアクセスできることを意味します。
# に続くテキストは説明情報です。User-agent: の後には検索ロボットの名前が続き、その後に * が続く場合は、通常、すべての検索ロボットを指します。アクセスが許可されていないファイル ディレクトリによって。
以下に、robots.txt の具体的な用途をいくつかリストします:
すべてのロボットにアクセスを許可する
ユーザーエージェント: *
許可しない:
または、空のファイルを作成できる"/robots.txt" ファイル
すべての検索エンジンがサイトのどの部分にもアクセスできないようにします
ユーザーエージェント: *
Disallow: /
すべての検索エンジンがサイトのいくつかの部分にアクセスすることを禁止しますサイト (下記) 例では 01、02、03 ディレクトリ)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
Ban特定の検索エンジンへのアクセス (以下の例では BadBot)
ユーザーエージェント: BadBot
禁止: /
特定の検索エンジンへのアクセスのみを許可します (以下の例ではクローラー)
ユーザーエージェント: クローラー
許可しない:
ユーザーエージェント: *
許可しない: /
さらに、説明を拡張してロボット メタについていくつか紹介する必要があると思います:
Robots META タグは主に特定のページ用です。他の META タグ (使用言語、ページの説明、キーワードなど) と同様に、ロボットの META タグもページの
に配置され、特に検索エンジン ROBOTS に次の操作を指示するために使用されます。ページをクロールします。
Robots META タグの書き方:
Robots META タグでは大文字と小文字の区別はありません。name="Robots" はすべての検索エンジンを意味し、特定の検索に対して name="BaiduSpider" と記述することができます。エンジン。コンテンツ部分には、index、noindex、follow、nofollow の 4 つのコマンド オプションがあり、コマンドは「,」で区切られます。
INDEX 命令は、検索ロボットにページをクロールするように指示します。
FOLLOW 命令は、検索ロボットがページ上のリンクに沿ってクロールを続けることができることを示します
ロボット メタのデフォルト値タグは、デフォルト値が INDEX,NOFOLLOW であるインクトミを除き、INDEX と FOLLOW です。
このように、以下の 4 つの組み合わせがあります。
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
どこ
<META NAME="ROBOTS " CONTENT = "INDEX,FOLLOW">は<META NAME="ROBOTS" CONTENT="ALL">と書くことができます
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">は<META>と書くことができますNAME="ROBOTS" CONTENT="NONE">
現時点では、検索エンジンのロボットの大多数が robots.txt のルールに準拠しているようです。 Robots META タグに関しては、現在サポートされているものは多くありません。有名な検索エンジンである GOOGLE はこれを完全にサポートしており、GOOGLE が Web ページのスナップショットを保持するかどうかを制限できるコマンド「archive」も追加しています。例:
は、サイト内のページをクロールし、ページ内のリンクに沿ってクロールすることを意味しますが、サイト上にページを保持することはありません。 GOOLGE Web ページのスナップショット。