Redis データ型学習のための HyperLogLog の簡単な分析-Redis-php.cn

ホームページ

データベース

Redis

Redis データ型学習のための HyperLogLog の簡単な分析

青灯夜游

Jan 21, 2022 am 10:00 AM

hyperloglogredisデータの種類

この記事では、通常、コレクション内の一意の要素の数を数えるために使用される Redis データ型の HyperLogLog について説明します。お役に立てば幸いです。

Redis データ型学習のための HyperLogLog の簡単な分析

今日は金曜日です。あなたは楽しく釣りをしています。プロダクトマネージャーから要件文書が電子メールで送信されます。おそらく需要は次のとおりです。企業は Web サイトの毎日の訪問者 IP をカウントする必要があり、この統計は数か月から数年の範囲の長期的な動作です。

要件を読むと、これはとても簡単だと感じるでしょう。Redis のコレクションタイプを使用してこの機能を簡単に実装できます: 毎日コレクションタイプのキーを生成し、SADD を使用して毎日の訪問者 IP を保存し、 SCARD コマンドを使用すると、1 日あたりの訪問者 IP 数を簡単に取得できます。

すぐにコードの入力を終えてテストに合格し、関数がオンラインになりました。オンラインになって一定期間実行すると、Redis が配置されているサーバーが警告を発し始めることがわかります。その理由は、一部のキーのメモリ使用量が大きすぎるためです。調べてみると、これらのキーはすべて同じであることがわかりました。訪問者のIPを保存するキーを設定します。そのとき初めて、あなたは自分自身のために大きな穴を掘ったことを知り、頭を撫でました。

IP アドレスを IPv4 形式で保存するには最大 15 バイトが必要で、Web サイトには 1 日あたり最大 100 万人の訪問者がいると仮定します。これらのコレクションキーは、1 か月あたり 0.45 GB のメモリ、1 年あたり 5.4 GB のメモリを使用します。これは IPv4 形式の推定値にすぎません。IPv6 形式がより多くのメモリを占有する場合は、 SADD と SCARD の時間計算量は O(1) ですが、メモリ消費量は許容範囲外です。

あなたは、Redis の公式 Web サイトを閲覧し、Redis が製品のニーズを満たすだけでなく、メモリの占有量も少なくできるデータ型 HyperLogLog も提供していることを知りました。 [関連する推奨事項: Redis ビデオチュートリアル ]

HyperLogLog アルゴリズム

HyperLogLog は、セットのカーディナリティを計算するために特別に作成された確率的アルゴリズムです。特定のセットのおおよそのカーディナリティを計算できます。

概算のカーディナリティは、セットの実際のカーディナリティではありません。実際のカーディナリティより若干小さいか大きい場合がありますが、推定されたカーディナリティと実際のカーディナリティの間の誤差は妥当な範囲内になります。必要のない人 HyperLogLog アルゴリズムを使用すると、非常に正確な統計を取得できます。

HyperLogLog の利点は、おおよそのカーディナリティの計算に必要なメモリがセットのサイズによって変化しないことです。セットに含まれる要素の数に関係なく、HyperLogLog の計算に必要なメモリは常に一定です、そして非常に少数です。

Redis の各 HyperLogLog タイプは、ほぼ 2⁶⁴ 要素をカウントするために 12KB のメモリ空間を使用するだけでよく、アルゴリズムの標準誤差はわずか 0.81% です。

HyperLogLog タイプを使用して上記の機能を実装した場合、1 日あたり 100 万人の訪問者があったとしても、1 か月で占有するメモリは 360 KB だけです。

PFADD

PFADD コマンドは、1 つ以上の指定されたセット要素をカウントするために使用できます。

PFADD キー要素 [要素...]

指定された要素がカウントされているかどうかに応じて、PFADD コマンドは 0 または 1 を返す場合があります。

指定されたすべての要素がカウントされた場合、PFADD コマンドは 0 を返し、HyperLogLog によって計算されたおおよそのカーディナリティが変更されていないことを示します。
指定された要素内に以前にカウントされていない要素が少なくとも 1 つ存在するために、HyperLogLog によって計算されたおおよそのカーディナリティが変化した場合、PFADD コマンドは 1 を返します。

例:

redis> PFADD letters a b c -- 第一次添加
(integer) 1
redis> PFADD letters a     -- 第二次添加
(integer) 0

このコマンドを呼び出す際に要素を指定せずにキーのみを指定することも可能です。キーが存在する場合は何も動作しません。存在しない場合、データ構造が作成されます (1 を返します)。

PFCOUNT

PFCOUNT コマンドを使用すると、HyperLogLog によってコレクションに対して計算されたおおよそのカーディナリティを取得できます。指定されたキーが存在しない場合は、0 が返されます。

PFCOUNT key [key...]

例:

redis> PFCOUNT letters
(integer) 3

複数の HyperLogLog が PFCOUNT に渡される場合、PFCOUNT コマンドは最初にすべての HyperLogLog の和集合が返され、おおよそのカーディナリティが返されます。

redis> PFADD letters1 a b c
(integer) 1
redis> PFADD letters2 c d e
(integer) 1
redis> PFCOUNT letters1 letters2
(integer) 5

PFMERGE

PFMERGE コマンドは、複数の HyperLogLog に対して和集合計算を実行し、計算された和集合 HyperLogLog を指定されたキーに保存できます。

PFMERGE destKey sourceKey [sourceKey...]

指定されたキーがすでに存在する場合、PFMERGE コマンドは既存のキーを上書きします。

redis> PFADD letters1 a b c
(integer) 1
redis> PFADD letters2 c d e
(integer) 1
redis> PFMERGE res letters1 letters2
OK
redis> PFCOUNT res
(integer) 5

PFMERGE コマンドと PFCOUNT コマンドは非常に似ていることがわかります。実際、PFCOUNT コマンドは、複数の HyperLogLog のおおよそのベースを計算するときに次の操作を実行します。 #内部的に呼び出されます PFMERGE コマンドは、指定されたすべての HyperLogLog の結合を計算し、その結合を一時的な HyperLogLog に保存します。

一時 HyperLogLog に対して PFCOUNT コマンドを実行して、そのおおよそのカーディナリティを取得します。
一時的な HyperLogLog を削除します。
結果の近似基数を返します。

プログラムが複数の HyperLogLog で PFCOUNT コマンドを呼び出す必要があり、この呼び出しが複数回繰り返される可能性がある場合は、この呼び出しを対応する PFMERGE コマンド呼び出しに置き換えることを検討できます。毎回和集合を再計算するのではなく、指定された HyperLogLog に保存されるため、プログラムは不必要な和集合計算を最小限に抑えることができます。

ビジネスシナリオ

HyperLogLog の機能は、カウント (月次、年次統計)、重複排除 (スパム SMS 検出)、およびその他のシナリオに非常に適しています。

プログラミング関連の知識について詳しくは、プログラミング入門をご覧ください。！

以上がRedis データ型学習のための HyperLogLog の簡単な分析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は掘金社区で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Redis：一般的なデータ構造のガイドApr 11, 2025 am 12:04 AM

Redisは、次のようなさまざまなデータ構造をサポートしています。1。文字列、単一価値データの保存に適しています。 2。キューやスタックに適したリスト。 3.非重複データの保存に使用されるセット。 4。ランキングリストと優先キューに適した注文セット。 5。オブジェクトまたは構造化されたデータの保存に適したハッシュテーブル。

Redisカウンターを実装する方法Apr 10, 2025 pm 10:21 PM

Redisカウンターは、Redisキー価値ペアストレージを使用して、カウンターキーの作成、カウントの増加、カウントの減少、カウントのリセット、およびカウントの取得など、カウント操作を実装するメカニズムです。 Redisカウンターの利点には、高速速度、高い並行性、耐久性、シンプルさと使いやすさが含まれます。ユーザーアクセスカウント、リアルタイムメトリック追跡、ゲームのスコアとランキング、注文処理などのシナリオで使用できます。

Redisコマンドラインの使用方法Apr 10, 2025 pm 10:18 PM

Redisコマンドラインツール（Redis-Cli）を使用して、次の手順を使用してRedisを管理および操作します。サーバーに接続し、アドレスとポートを指定します。コマンド名とパラメーターを使用して、コマンドをサーバーに送信します。ヘルプコマンドを使用して、特定のコマンドのヘルプ情報を表示します。 QUITコマンドを使用して、コマンドラインツールを終了します。

Redisクラスターモードの構築方法Apr 10, 2025 pm 10:15 PM

Redisクラスターモードは、シャードを介してRedisインスタンスを複数のサーバーに展開し、スケーラビリティと可用性を向上させます。構造の手順は次のとおりです。異なるポートで奇妙なRedisインスタンスを作成します。 3つのセンチネルインスタンスを作成し、Redisインスタンスを監視し、フェールオーバーを監視します。 Sentinel構成ファイルを構成し、Redisインスタンス情報とフェールオーバー設定の監視を追加します。 Redisインスタンス構成ファイルを構成し、クラスターモードを有効にし、クラスター情報ファイルパスを指定します。各Redisインスタンスの情報を含むnodes.confファイルを作成します。クラスターを起動し、CREATEコマンドを実行してクラスターを作成し、レプリカの数を指定します。クラスターにログインしてクラスター情報コマンドを実行して、クラスターステータスを確認します。作る

Redisキューの読み方Apr 10, 2025 pm 10:12 PM

Redisのキューを読むには、キュー名を取得し、LPOPコマンドを使用して要素を読み、空のキューを処理する必要があります。特定の手順は次のとおりです。キュー名を取得します：「キュー：キュー」などの「キュー：」のプレフィックスで名前を付けます。 LPOPコマンドを使用します。キューのヘッドから要素を排出し、LPOP Queue：My-Queueなどの値を返します。空のキューの処理：キューが空の場合、LPOPはnilを返し、要素を読む前にキューが存在するかどうかを確認できます。

Redisクラスターzsetの使用方法Apr 10, 2025 pm 10:09 PM

RedisクラスターでのZsetの使用：Zsetは、要素をスコアに関連付ける順序付けられたコレクションです。シャード戦略：a。ハッシュシャーディング：ZSTキーに従ってハッシュ値を分配します。 b。範囲シャード：要素スコアに従って範囲に分割し、各範囲を異なるノードに割り当てます。操作の読み取りと書き込み：a。読み取り操作：ZSetキーが現在のノードのシャードに属している場合、ローカルで処理されます。それ以外の場合は、対応するシャードにルーティングされます。 b。書き込み操作：Zsetキーを保持しているシャードに常にルーティングされます。

Redisデータをクリアする方法Apr 10, 2025 pm 10:06 PM

Redisデータをクリアする方法：Flushallコマンドを使用して、すべての重要な値をクリアします。 FlushDBコマンドを使用して、現在選択されているデータベースのキー値をクリアします。 [選択]を使用してデータベースを切り替え、FlushDBを使用して複数のデータベースをクリアします。 DELコマンドを使用して、特定のキーを削除します。 Redis-CLIツールを使用してデータをクリアします。

Redisの有効期限ポリシーを設定する方法Apr 10, 2025 pm 10:03 PM

Redisデータの有効期間戦略には2つのタイプがあります。周期削除：期限切れのキーを削除する定期的なスキャン。これは、期限切れの時間帯-remove-countおよび期限切れの時間帯-remove-delayパラメーターを介して設定できます。怠zyな削除：キーが読み取られたり書かれたりした場合にのみ、削除の有効期限が切れたキーを確認してください。それらは、レイジーフリーレイジーエビクション、レイジーフリーレイジーエクスピア、レイジーフリーラジーユーザーのパラメーターを介して設定できます。

See all articles