ブルーム フィルター (BF) は、1970 年にブルームによって提案されたマルチハッシュ関数マッピングのための高速検索アルゴリズムです。要素がセットに属しているかどうかを 素早く 見つけるために使用されますが、100% の精度は必要ありません。ブルーム フィルターは通常、クローラー URL の重複排除、つまり特定の URL がクロールされたかどうかを判断するために使用されます。 原理に関しては、他の人が書いた記事を引用しましたので、ここでは詳しく説明しません。詳細については、彼の論文を参照してください。 BF の PHP 実装をいくつか見てきましたが、この記事では主にブルーム フィルターの PHP 実装について説明します。
原則:
1. 例
ブルームフィルターの重要性を説明するために、例を挙げてみましょう:
ウェブスパイダー (ウェブクローラー) を書くように頼まれたとします。巣の間には複雑なつながりがあるため、クモは巣を這うときに「ループ」を形成する可能性があります。 「ループ」の形成を避けるためには、スパイダーがどの URL にアクセスしたかを知る必要があります。 URL が与えられた場合、クモがその URL を訪問したかどうかをどうやって知ることができるでしょうか?少し考えてみると、次のような解決策が考えられます:
1. 訪問したURLをデータベースに保存します。
2. HashSetを使用して、訪問したURLを保存します。その後、O(1) に近いコストで URL が訪問されたかどうかを確認できます。
3. URLはMD5やSHA-1などの一方向ハッシュ化の後、HashSetまたはデータベースに保存されます。
4. ビットマップ方式。 BitSet を作成し、ハッシュ関数を通じて各 URL を特定のビットにマッピングします。
方法 1 ~ 3 はすべて、訪問した URL を完全に保存しますが、方法 4 は URL の 1 つのマッピング ビットのみをマークします。
データ量が少ない場合は上記の方法で完璧に問題を解決できますが、データ量が非常に多くなると問題が発生します。
方法 1 の欠点: データの量が非常に大きくなると、リレーショナル データベースのクエリの効率が非常に低くなります。また、すべての URL に対してデータベース クエリを開始するのはやりすぎでしょうか?
方法 2 の欠点: メモリを大量に消費します。 URL の数が増えると、より多くのメモリが占有されます。 URL が 1 億しかないとしても、各 URL は 50 文字しかカウントせず、5GB のメモリが必要です。
方法 3: MD5 処理後の文字列の情報ダイジェスト長は 128Bit のみで、SHA-1 処理後の文字列の情報ダイジェスト長は 160Bit のみであるため、方法 3 は方法 2 よりも数倍のメモリを節約します。
方法 4 はメモリ消費量が比較的少ないですが、単一のハッシュ関数の衝突確率が高すぎるという欠点があります。データ構造のクラスで学んだ、ハッシュ テーブルの競合に対するさまざまな解決策をまだ覚えていますか?競合の可能性を 1% に下げるには、BitSet の長さを URL 数の 100 倍に設定します。
実際、上記のアルゴリズムは重要な暗黙の条件を無視しています。それは、小さな確率のエラーは許容するが、100% 正確である必要はないということです。言い換えれば、少数の URL は実際には Web スパイダーによって訪問されず、それらを訪問済みと誤って判断した場合のコストは、せいぜいいくつかの Web ページを節約するだけです。
2. ブルームフィルターのアルゴリズム
ナンセンスな話はこれくらいにして、この記事の主人公を紹介しましょう。実際、上記の方法 4 の考え方はブルーム フィルターに非常に近いです。方法 4 の致命的な欠点は、競合の可能性が高いことです。競合の概念を減らすために、ブルーム フィルターは 1 つのハッシュ関数ではなく複数のハッシュ関数を使用します。
ブルームフィルターのアルゴリズムは次のとおりです:
(1)初始化
mビットのBitSetを作成し、最初にすべてのビットを0に初期化し、次にk個の異なるハッシュ関数を選択します。文字列 str を i 番目のハッシュ関数でハッシュした結果は h(i, str) として記録され、h(i, str) の範囲は 0 ~ m-1 です。
(2) 检查字符串是否存在
以下は、文字列 str が BitSet によって記録されているかどうかを確認するプロセスです:
文字列 str に対して、 h (1, str), h (2, str)... h (k, str) を計算します。 ) それぞれ。次に、BitSet の h (1, str)、h (2, str)... h (k, str) ビットが 1 であるかどうかを確認します。それらのいずれかが 1 でない場合、str には次の値が含まれていてはいけないと判断できます。記録されている。すべてのビットが 1 の場合、文字列 str は存在すると「みなされます」。
文字列に対応するビットがすべて 1 ではない場合、その文字列はブルーム フィルターによって記録されていないと確信できます。 (文字列は記録されており、対応するバイナリ ビットはすべて 1 に設定されている必要があるため、これは明らかです)
しかし、文字列に対応するビットがすべて 1 である場合、実際にはその文字列について 100% 確信することはできません。ブルームフィルターで記録。 (文字列のすべてのビットが他の文字列に正確に対応する可能性があるため) 文字列が誤って分割されるこの状況は、偽陽性と呼ばれます。
(3) 删除字符串 :
一度追加した文字列は、削除すると他の文字列に影響するため削除できません。本当に文字列を削除する必要がある場合は、基本的なブルーム フィルターの変形であるカウンティング ブルーム フィルター (CBF) を使用できます。CBF は、基本的なブルーム フィルターの各ビットをカウンターに変更して、削除機能を実現します。文字列。
Bloom Filter と単一ハッシュ関数 Bit-Map の違いは、Bloom Filter が k 個のハッシュ関数を使用し、各文字列が k ビットに対応することです。これにより、競合の可能性が減少します。
三. Bloom Filter参数选择
(1)哈希函数选择
哈希函数的选择对性能的影响应该是很大的,一个好的哈希函数要能近似等概率的将字符串映射到各个Bit。选择k个不同的哈希函数比较麻烦,一种简单的方法是选择一个哈希函数,然后送入k个不同的参数。
(2)Bit数组大小选择
哈希函数个数k、位数组大小m、加入的字符串数量n的关系可以参考参考文献1。该文献证明了对于给定的m、n,当 k = ln(2)* m/n 时出错的概率是最小的。
同时该文献还给出特定的k,m,n的出错概率。例如:根据参考文献,哈希函数个数k取10,位数组大小m设为字符串个数n的20倍时,false positive发生的概率是0.0000889 ,这个概率基本能满足网络爬虫的需求了。
实现:
<?php ///*************************************************************************** // * // * Copyright (c) 2015 Baidu.com, Inc. All Rights Reserved // * // **************************************************************************/ // // // ///** // * @file bloomfilter.php // * @author Rachel Zhang(zrqsophia@sina.com) // * @date 2015/07/24 18:48:57 // * @version $Revision$ // * @brief // * // **/ class BloomFilter{ var $m; # blocksize var $n; # number of strings to hash var $k; # number of hashing functions var $bitset; # hashing block with size m function BloomFilter($mInit,$nInit){ $this->m = $mInit; $this->n = $nInit; $this->k = ceil(($this->m/$this->n)*log(2)); echo "number of functions: $this->k\n"; $this->bitset = array_fill(0, $this->m, false); } function hashcode($str){ $res = array(); #put k hashing bit into $res $seed = crc32($str); mt_srand($seed); // set random seed, or mt_rand wouldn't provide same random arrays at different generation for($i=0 ; $i<$this->k ; $i++){ $res[] = mt_rand(0,$this->m-1); } return $res; } function addKey($key){ foreach($this->hashcode($key) as $codebit){ $this->bitset[$codebit]=true; } } function existKey($key){ $code=$this->hashcode($key); foreach($code as $codebit){ if($this->bitset[$codebit]==false){ return false; } } return true; } } $bf = new BloomFilter(10,2); $str_add1 = "test1"; $str_add2 = "test2"; $str_notadd3 = "test3"; //var_dump($bf->hashcode($str)); $bf->addKey($str_add1); $bf->addKey($str_add2); var_dump($bf->existKey($str_add1)); var_dump($bf->existKey($str_add2)); var_dump($bf->existKey($str_notadd3)); ?>
版权声明:本文为博主原创文章,未经博主允许不得转载。

PHPタイプは、コードの品質と読みやすさを向上させるためのプロンプトがあります。 1)スカラータイプのヒント:php7.0であるため、基本データ型は、int、floatなどの関数パラメーターで指定できます。 3)ユニオンタイプのプロンプト:PHP8.0であるため、関数パラメーターまたは戻り値で複数のタイプを指定することができます。 4)Nullable Typeプロンプト:null値を含めることができ、null値を返す可能性のある機能を処理できます。

PHPでは、クローンキーワードを使用してオブジェクトのコピーを作成し、\ _ \ _クローンマジックメソッドを使用してクローン動作をカスタマイズします。 1.クローンキーワードを使用して浅いコピーを作成し、オブジェクトのプロパティをクローン化しますが、オブジェクトのプロパティはクローニングしません。 2。\ _ \ _クローン法は、浅いコピーの問題を避けるために、ネストされたオブジェクトを深くコピーできます。 3.クローニングにおける円形の参照とパフォーマンスの問題を避けるために注意し、クローニング操作を最適化して効率を向上させます。

PHPはWeb開発およびコンテンツ管理システムに適しており、Pythonはデータサイエンス、機械学習、自動化スクリプトに適しています。 1.PHPは、高速でスケーラブルなWebサイトとアプリケーションの構築においてうまく機能し、WordPressなどのCMSで一般的に使用されます。 2。Pythonは、NumpyやTensorflowなどの豊富なライブラリを使用して、データサイエンスと機械学習の分野で驚くほどパフォーマンスを発揮しています。

HTTPキャッシュヘッダーの主要なプレーヤーには、キャッシュコントロール、ETAG、およびラスト修飾が含まれます。 1.Cache-Controlは、キャッシュポリシーを制御するために使用されます。例:キャッシュコントロール:Max-Age = 3600、public。 2。ETAGは、一意の識別子を介してリソースの変更を検証します。例:ETAG: "686897696A7C876B7E"。 3. Last-Modifiedは、リソースの最後の変更時間を示しています。

PHPでは、Password_hashとpassword_verify関数を使用して安全なパスワードハッシュを実装する必要があり、MD5またはSHA1を使用しないでください。 1)password_hashセキュリティを強化するために、塩値を含むハッシュを生成します。 2)password_verifyハッシュ値を比較して、パスワードを確認し、セキュリティを確保します。 3)MD5とSHA1は脆弱であり、塩の値が不足しており、最新のパスワードセキュリティには適していません。

PHPは、動的なWeb開発およびサーバー側のアプリケーションに使用されるサーバー側のスクリプト言語です。 1.PHPは、編集を必要とせず、迅速な発展に適した解釈言語です。 2。PHPコードはHTMLに組み込まれているため、Webページの開発が簡単になりました。 3。PHPプロセスサーバー側のロジック、HTML出力を生成し、ユーザーの相互作用とデータ処理をサポートします。 4。PHPは、データベースと対話し、プロセスフォームの送信、サーバー側のタスクを実行できます。

PHPは過去数十年にわたってネットワークを形成しており、Web開発において重要な役割を果たし続けます。 1)PHPは1994年に発信され、MySQLとのシームレスな統合により、開発者にとって最初の選択肢となっています。 2)コア関数には、動的なコンテンツの生成とデータベースとの統合が含まれ、ウェブサイトをリアルタイムで更新し、パーソナライズされた方法で表示できるようにします。 3)PHPの幅広いアプリケーションとエコシステムは、長期的な影響を促進していますが、バージョンの更新とセキュリティの課題にも直面しています。 4)PHP7のリリースなど、近年のパフォーマンスの改善により、現代の言語と競合できるようになりました。 5)将来的には、PHPはコンテナ化やマイクロサービスなどの新しい課題に対処する必要がありますが、その柔軟性とアクティブなコミュニティにより適応性があります。

PHPの中心的な利点には、学習の容易さ、強力なWeb開発サポート、豊富なライブラリとフレームワーク、高性能とスケーラビリティ、クロスプラットフォームの互換性、費用対効果が含まれます。 1)初心者に適した学習と使用が簡単。 2)Webサーバーとの適切な統合および複数のデータベースをサポートします。 3)Laravelなどの強力なフレームワークを持っています。 4)最適化を通じて高性能を達成できます。 5)複数のオペレーティングシステムをサポートします。 6)開発コストを削減するためのオープンソース。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター
