ホームページ  >  記事  >  トピック  >  Web サイトが Baidu によってクロールされているかどうかを確認する方法

Web サイトが Baidu によってクロールされているかどうかを確認する方法

silencement
silencementオリジナル
2019-05-24 10:57:042990ブラウズ

Web サイトが Baidu によってクロールされているかどうかを確認する方法: Web サイトのログ内の Baidu スパイダーのアクティビティ、クロール頻度、返された HTTP ステータス コードなどを分析します。 Web サイトのルート ディレクトリにあるログ ファイルを表示することもできます。このログ ファイルには、Web サイトへのアクセスと操作が記録されます。

Web サイトが Baidu によってクロールされているかどうかを確認する方法

Baidu が Web ページをクロールするために使用するプログラムは Baiduspider - Baidu Spider と呼ばれ、主に Baidu による Web ページのクロール状況を確認し、分析を行っています。 Web サイトのログ Baiduspider アクティビティのスパイダー: クロール頻度、返された HTTP ステータス コード。

ログの表示方法:

FTP 経由で、Web サイトのルート ディレクトリにあるログ ファイルを見つけます。通常、ファイル名にはログが含まれています。ファイルをダウンロードして解凍します。中のメモ帳は、Web サイトの訪問と操作を記録する、Web サイトのログです。

サーバーやホストごとに状況が異なるため、ホストごとにログ機能に記録される内容が異なり、またログ機能を持たないホストもあります。

ログの内容は次のとおりです:

61.135.168.22 - - [11/Jan/2009:04:02:45 0800] "GET /bbs/thread -7303- 1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider (http://www.baidu.com/search/spider.htm)"

分析:

GET / bbs/thread-7303-1-1.html は、/bbs/thread-7303-1-1.html ページを取得することを表します。

200 はキャプチャが成功したことを意味します。

8450 は、8450 バイトがキャプチャされたことを意味します。

ログの形式がこのようになっていない場合は、ログ形式の設定が異なっていることを意味します。

多くのログで 200 0 0 と 200 0 64 が確認できますが、これは通常のクロールを表します。

クロール頻度は、毎日のログで Baidu Spider のクロール数を確認することで取得されます。クローリング頻度には標準化されたスケジュールや頻度数値はありませんが、通常は複数日のログを比較することで判断します。もちろん、Baidu Spider が毎日できるだけ多くクロールできることを願っています。

以上がWeb サイトが Baidu によってクロールされているかどうかを確認する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。