ホームページ >Java >＆＃＆チュートリアル >Javaでブルームフィルターを実装するにはどうすればよいですか?

Javaでブルームフィルターを実装するにはどうすればよいですか?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-05-08 22:16:381133ブラウズ

ブルームフィルターとは

ブルームフィルター(Bloom Filter)は、1970年にBloomによって提案されました。実際には、非常に長いバイナリ配列と一連のハッシュアルゴリズムマッピング関数で構成されており、セット内に要素が存在するかどうかを判断するために使用されます。
ブルームフィルターを使用して、要素がコレクション内にあるかどうかを取得できます。利点は、スペース効率とクエリ時間が通常のアルゴリズムよりも優れていることですが、欠点は、ある程度の誤認識率と削除が難しいことです。

シナリオ

携帯電話番号が 10 億あると仮定し、特定の携帯電話番号がリストに含まれているかどうかを判断しますか?

mysqlでは可能でしょうか？

通常の状況では、データの量が大きくない場合は、mysql ストレージの使用を検討できます。すべてのデータをデータベースに保存し、毎回データベースにクエリを実行して、データベースが存在するかどうかを確認します。ただし、データ量が大きすぎて数千万を超えると、MySQL のクエリ効率が非常に低くなり、特にパフォーマンスが消費されます。

HashSet は使用できますか?

データを HashSet に入れて、HashSet の自然な重複排除を使用できます。クエリでは contains メソッドを呼び出すだけで済みますが、ハッシュセットはメモリに保存されます。データの量が多すぎる場合は、大きい場合、メモリは直接 oom になります。

ブルームフィルターの機能

挿入とクエリは効率的で、占有スペースも少なくなりますが、返される結果は不確実です。
要素が存在すると判断された場合、実際には存在しない可能性があります。しかし、要素が存在しないと判断された場合、その要素は存在しないはずです。
ブルームフィルターは要素 を追加できますが、要素 を削除してはなりません。これにより、誤検知率が増加します。

ブルームフィルターの原理

ブルームフィルターは実際には BIT 配列であり、一連のハッシュアルゴリズムを通じて対応するハッシュをマッピングし、次に、対応するハッシュをマッピングします。配列の添え字の位置が 1 に変更されます。クエリを実行すると、添字を取得するためにデータに対して一連のハッシュアルゴリズムが実行されます。データは、 などの BIT 配列から取得されます。1 の場合は、データが存在する可能性があることを意味します。0 の場合は、

エラー率が発生する理由

ブルームフィルターが実際にデータをハッシュすることがわかっているため、どのようなアルゴリズムが使用されていても、エラー率は存在しません。 2 つの異なるデータによって生成されたハッシュが実際に同じである可能性があります。つまり、一般にハッシュの競合と呼ばれます。