ホームページ >バックエンド開発 >PHPチュートリアル >SEO統計アルゴリズム
Webmaster Home が Web サイトの IP PV の統計にどのようなアルゴリズムを使用しているかを知りたいです。
一般的な考え方と方向性は何ですか? SDKを使用せずに収集されたデータの相対精度はそれほど高くないと思いますが、これは理解していますか?
Webmaster Home が Web サイトの IP PV の統計にどのようなアルゴリズムを使用しているかを知りたいです。
一般的な考え方と方向性は何ですか? SDKを使用せずに収集されたデータの相対精度はそれほど高くないと思いますが、これは理解していますか?
1) シンプルで粗雑です。ここでは、Cookie やその他の情報に関係なく、PV が生成されるたびに直接カウントされます。真実ではない場合、ブラシ データがある可能性があります
2) もう少し詳細な統計により、新規ユーザーと古いユーザーを区別できます。これには、ユーザーのブラウザー情報、オペレーティング システム情報、ユーザーの地域情報などが含まれています。つまり、サーバーの JavaScript を参照すると、サーバー データとのやり取りによってバックエンド サーバーのデータが取得されるため、Webmaster's Home のような Web サイトでは、現時点での行動分析のために実際のユーザーの訪問数をカウントする必要があるかもしれません。 、ユーザーの IP 情報、Cookie 情報 (つまり、セッション) およびユーザー エージェントが統計分析のために結合されます。ここでの IP は、毎日の家庭用ダイヤルアップ インターネット アクセスの場合、この操作を取得することに注意してください。プロバイダーの仮想イントラネット アドレスは、IPv4 リソースを節約するために使用されるため、ユーザー エージェント、IP、Cookie は基本的にユーザーの情報を一意に識別できます。
3) さらに、これらのデータでは、デザインの観点からすると、閲覧量に関する情報はページ表示において最優先ではありませんが(最優先は業務内容そのものであるべきです)、閲覧量に関する情報は理にかなっていますが、そこで疑問が生じます。読み取りボリュームなどの情報については、データベースの設計レベルで相互排他のための書き込みロックを追加する必要があるのでしょうか? ここでは、CAP 原則が何であるかを理解することをお勧めします。
4) 解決策はキャッシュかもしれないし、IP 判定や Cookie 検出かもしれませんが、個人的には、Autohome が使用する読み取りボリュームが最も可能性が高いと思います。統計は、実際の読み取り値を生成した後、バックグラウンド処理後に読み取りカウンターを +1 することを意味します。
これを達成するためのアイデアをいくつか提供してください:
IP は最大で 2 回しか測定値を増やすことができません。同様のメカニズムが使用される場合もあれば、より深いレベルの論理的判断が行われる場合もあります。たとえば、翌日には IP がクリアされ、統計アルゴリズムがそのようになります。各 IP には毎日 2 つの読み取りの増加の機会があります
一定時間内(30分など)、同じブラウザコアで何度アクセスしても読み取り数は1回しか増えません。
ユーザーエージェント、Cookie、その他の情報を確認し、閲覧ごとに訪問者レコードをテーブル A に挿入します
Weiboの実装:私はWeiboをやっています、そして、Weiboの実践について話します。閲覧数、いいね数、単一アクセス制限。すべて Redis を使用して実装されます。その後、無料期間中に毎晩 (特定のルールに従って、バッチなどで) データベースを同期します。
ユーザーがログインしている場合は1回のみカウントされ、訪問者である場合はIP、タイムスタンプ、Cookieなどを総合的に判断して1回のみカウントされます。は1回のみカウントされます。
これにより、ブラウジングサーフィンが防止されます。