Baidu Statistics、Google Analytics、cnzz やその他の統計バックエンドなどの専門的な統計 Web サイトは、UV、PV、オンライン時間、IP など、Web マスター向けに一般的に使用される統計指標を提供します。さらに、ネットワーク上の理由により、次のことがわかりました。 Google Analytics は数百の IP をカウントする Baidu よりも優れているため、実際の訪問数を把握するために独自のスクリプトを作成したいと考えています。ただし、スパイダーの訪問も多く発生するため、nginx に基づくアクセス ログは統計的なバックエンドよりもはるかに大きくなります。実際、アルゴリズムが改善されれば、それらの役に立たない統計データを除外することができ、また Python 言語を学習して復習することもできます。
たとえば、サーバー上の nginx ログは次のとおりです:
221.221.155.54 - - [02/Aug/2014:15:16:11 +0800] "GET / HTTP/1.1" 200 8482 "http:/ /www.zudaima.com/" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML、Gecko など) Chrome/31.0.1650.57 Safari/537.36" "-" "0.020"
221.221.155.53 - - [ 02/Aug /2014:15:16:11 +0800] "GET / HTTP/1.1" 200 8482 "http://www.zudaima.com/" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 ( KHTML、Gecko など) Chrome/31.0.1650.57 Safari/537.36" "-" "0.020"
221.221.155.54 - - [02/Aug/2014:15:16:11 +0800] "GET / HTTP/1.1" 200 8482 "http://www.zudaima.com/" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML、Gecko など) Chrome/31.0.1650.57 Safari/537.36" "-" "0.020"
統計スクリプトは次のとおりです:
stat_ip.py
#encoding=utf8