Web サイトが Baidu によってクロールされているかどうかを確認する方法: Web サイトのログ内の Baidu スパイダーのアクティビティ、クロール頻度、返された HTTP ステータス コードなどを分析します。 Web サイトのルート ディレクトリにあるログ ファイルを表示することもできます。このログ ファイルには、Web サイトへのアクセスと操作が記録されます。
Baidu が Web ページをクロールするために使用するプログラムは Baiduspider - Baidu Spider と呼ばれ、主に Baidu による Web ページのクロール状況を確認し、分析を行っています。 Web サイトのログ Baiduspider アクティビティのスパイダー: クロール頻度、返された HTTP ステータス コード。
ログの表示方法:
FTP 経由で、Web サイトのルート ディレクトリにあるログ ファイルを見つけます。通常、ファイル名にはログが含まれています。ファイルをダウンロードして解凍します。中のメモ帳は、Web サイトの訪問と操作を記録する、Web サイトのログです。
サーバーやホストごとに状況が異なるため、ホストごとにログ機能に記録される内容が異なり、またログ機能を持たないホストもあります。
ログの内容は次のとおりです:
61.135.168.22 - - [11/Jan/2009:04:02:45 0800] "GET /bbs/thread -7303- 1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider (http://www.baidu.com/search/spider.htm)"
分析:
GET / bbs/thread-7303-1-1.html は、/bbs/thread-7303-1-1.html ページを取得することを表します。
200 はキャプチャが成功したことを意味します。
8450 は、8450 バイトがキャプチャされたことを意味します。
ログの形式がこのようになっていない場合は、ログ形式の設定が異なっていることを意味します。
多くのログで 200 0 0 と 200 0 64 が確認できますが、これは通常のクロールを表します。
クロール頻度は、毎日のログで Baidu Spider のクロール数を確認することで取得されます。クローリング頻度には標準化されたスケジュールや頻度数値はありませんが、通常は複数日のログを比較することで判断します。もちろん、Baidu Spider が毎日できるだけ多くクロールできることを願っています。
以上がWeb サイトが Baidu によってクロールされているかどうかを確認する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。