Bagaimana untuk melaksanakan penapis Redis BloomFilter Bloom-Redis-php.cn

Rumah

pangkalan data

Redis

Bagaimana untuk melaksanakan penapis Redis BloomFilter Bloom

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 30, 2023 pm 01:41 PM

redisbloomfilter

Konsep Penapis Bloom

Seorang lelaki bernama Bloom mencadangkan penapis Bloom (nama Inggeris: Penapis Bloom) pada tahun 1970. Ia sebenarnya vektor binari yang panjang dan satu siri fungsi pemetaan rawak. Penapis Bloom boleh digunakan untuk mendapatkan semula sama ada elemen berada dalam koleksi. Kelebihannya ialah kecekapan ruang dan masa pertanyaan jauh lebih tinggi daripada algoritma umum, tetapi kelemahannya ialah ia mempunyai kadar salah pengiktirafan tertentu dan kesukaran dalam pemadaman.

Prinsip Penapis Bloom

Prinsip Penapis Bloom ialah apabila elemen ditambah pada set, elemen itu dipetakan ke titik K dalam tatasusunan bit melalui fungsi cincang K, tetapkan kepada 1. Apabila mendapatkan semula, kita hanya perlu melihat sama ada mata ini kesemuanya 1 hingga (kira-kira) mengetahui sama ada ia berada dalam set: jika mana-mana mata ini mempunyai 0, maka elemen yang ditandakan mestilah tidak ada di sana jika kesemuanya 1, maka elemen yang diperiksa Kemungkinan besar. Ini adalah idea asas penapis Bloom.

Perbezaan antara Penapis Bloom dan fungsi cincangan tunggal Bit-Map ialah Penapis Bloom menggunakan fungsi cincang k, dan setiap rentetan sepadan dengan k bit. Dengan itu mengurangkan kebarangkalian konflik

Bagaimana untuk melaksanakan penapis Redis BloomFilter Bloom

Penembusan cache

Bagaimana untuk melaksanakan penapis Redis BloomFilter Bloom

Setiap pertanyaan akan dipukul terus ke DB

Ringkasnya, secara ringkasnya, kami mula-mula memuatkan semua data daripada pangkalan data kami ke dalam penapis kami Contohnya, id pangkalan data kini mempunyai: 1, 2, 3

Kemudian gunakan id: 1. ialah contoh. Selepas pencincangan tiga kali dalam gambar di atas, dia menukar tiga tempat di mana nilai asalnya ialah 0 kepada 1

Jika nilai id ialah 1 apabila data masuk untuk pertanyaan pada kali seterusnya, maka Saya akan meletakkan 1 Ambil tiga cincang dan mendapati bahawa nilai tiga cincang adalah betul-betul sama dengan tiga kedudukan di atas, yang boleh membuktikan bahawa terdapat 1 dalam penapis

Sebaliknya, jika mereka berbeza, bermakna ia tidak wujud

Jadi di manakah senario aplikasi? Secara umumnya kami akan menggunakannya untuk mengelakkan kerosakan cache

Ringkasnya, id pangkalan data anda bermula dengan 1 dan kemudian meningkat dengan sendirinya Kemudian saya tahu bahawa antara muka anda disoal oleh id, jadi saya akan menggunakan negatif nombor untuk pertanyaan Pada masa ini, anda akan mendapati bahawa data tidak berada dalam cache, dan saya pergi ke pangkalan data untuk menyemaknya, tetapi ia tidak dijumpai seperti ini, bagaimana dengan 100, 1,000, atau 10,000 ? DB anda pada asasnya tidak dapat mengendalikannya Jika anda menambah ini pada cache, ia tidak akan wujud lagi Jika anda menilai bahawa tiada data sedemikian, anda tidak akan menyemaknya itu kosong?

Perkara ini sangat bagus, jadi apakah kelemahannya? Ya, mari kita teruskan untuk melihat

Kelemahan Penapis Bloom

Sebab penapis bloom boleh menjadi lebih cekap dalam masa dan ruang adalah kerana ia mengorbankan ketepatan penghakiman

Walaupun bekas mungkin tidak mengandungi elemen yang sepatutnya ditemui, disebabkan oleh operasi cincang, nilai elemen ini dalam kedudukan cincang k adalah kesemuanya 1, jadi ia mungkin membawa kepada salah penilaian. Dengan mewujudkan senarai putih untuk menyimpan elemen yang mungkin salah dinilai, apabila senarai hitam disimpan dalam Penapis Bloom, kadar salah penilaian boleh dikurangkan.

Memadam adalah sukar. Elemen yang diletakkan dalam bekas dipetakan kepada 1 dalam kedudukan k tatasusunan bit Apabila memadam, ia tidak boleh ditetapkan secara langsung kepada 0, kerana ia boleh menjejaskan pertimbangan elemen lain. Anda boleh menggunakan Counting Bloom Filter

Soalan Lazim

1 Mengapa menggunakan pelbagai fungsi cincang?

Jika hanya satu fungsi cincang digunakan, Hash itu sendiri selalunya akan bercanggah. Sebagai contoh, untuk tatasusunan dengan panjang 100, jika hanya satu fungsi cincang digunakan, selepas menambah elemen, kebarangkalian konflik apabila menambah elemen kedua ialah 1%, dan kebarangkalian konflik apabila menambah elemen ketiga ialah 2 %... Tetapi jika dua elemen ditambah, kebarangkalian konflik ialah 1%. A fungsi cincang, selepas menambah elemen, kebarangkalian konflik apabila menambah elemen kedua dikurangkan kepada 4 daripada 10,000 (empat kemungkinan situasi konflik, jumlah bilangan situasi 100x100)

perlaksanaan bahasa go

package main
import (
	"fmt"
	"github.com/bits-and-blooms/bitset"
)
//设置哈希数组默认大小为16
const DefaultSize = 16
//设置种子，保证不同哈希函数有不同的计算方式
var seeds = []uint{7, 11, 13, 31, 37, 61}
//布隆过滤器结构，包括二进制数组和多个哈希函数
type BloomFilter struct {
	//使用第三方库
	set *bitset.BitSet
	//指定长度为6
	hashFuncs [6]func(seed uint, value string) uint
}
//构造一个布隆过滤器，包括数组和哈希函数的初始化
func NewBloomFilter() *BloomFilter {
	bf := new(BloomFilter)
	bf.set = bitset.New(DefaultSize)

	for i := 0; i < len(bf.hashFuncs); i++ {
		bf.hashFuncs[i] = createHash()
	}
	return bf
}
//构造6个哈希函数，每个哈希函数有参数seed保证计算方式的不同
func createHash() func(seed uint, value string) uint {
	return func(seed uint, value string) uint {
		var result uint = 0
		for i := 0; i < len(value); i++ {
			result = result*seed + uint(value[i])
		}
		//length = 2^n 时，X % length = X & (length - 1)
		return result & (DefaultSize - 1)
	}
}
//添加元素
func (b *BloomFilter) add(value string) {
	for i, f := range b.hashFuncs {
		//将哈希函数计算结果对应的数组位置1
		b.set.Set(f(seeds[i], value))
	}
}
//判断元素是否存在
func (b *BloomFilter) contains(value string) bool {
	//调用每个哈希函数，并且判断数组对应位是否为1
	//如果不为1，直接返回false，表明一定不存在
	for i, f := range b.hashFuncs {
		//result = result && b.set.Test(f(seeds[i], value))
		if !b.set.Test(f(seeds[i], value)) {
			return false
		}
	}
	return true
}
func main() {
	filter := NewBloomFilter()
	filter.add("asd")
	fmt.Println(filter.contains("asd"))
	fmt.Println(filter.contains("2222"))
	fmt.Println(filter.contains("155343"))
}

Hasil output adalah seperti berikut:

benar
salah
salah

Atas ialah kandungan terperinci Bagaimana untuk melaksanakan penapis Redis BloomFilter Bloom. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:亿速云. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Mengapa menggunakan Redis? Faedah dan kelebihanApr 14, 2025 am 12:07 AM

REDIS adalah penyelesaian pangkalan data yang kuat kerana ia menyediakan prestasi cepat, struktur data yang kaya, ketersediaan dan skalabilitas yang tinggi, keupayaan kegigihan, dan pelbagai sokongan ekosistem. 1) Prestasi yang sangat cepat: Data Redis disimpan dalam ingatan dan mempunyai kelajuan membaca dan menulis yang sangat cepat, sesuai untuk aplikasi kesesuaian yang tinggi dan rendah. 2) Struktur data yang kaya: Menyokong pelbagai jenis data, seperti senarai, koleksi, dan lain -lain, yang sesuai untuk pelbagai senario. 3) Ketersediaan dan skalabilitas yang tinggi: Menyokong replikasi master-hamba dan mod kluster untuk mencapai ketersediaan yang tinggi dan berskala mendatar. 4) Kegigihan dan keselamatan data: Ketekunan data dicapai melalui RDB dan AOF untuk memastikan integriti dan kebolehpercayaan data. 5) Sokongan ekosistem dan komuniti yang luas: dengan ekosistem yang besar dan komuniti aktif,

Memahami NoSQL: Ciri Utama RedisApr 13, 2025 am 12:17 AM

Ciri -ciri utama Redis termasuk kelajuan, fleksibiliti dan sokongan struktur data yang kaya. 1) Kelajuan: Redis adalah pangkalan data dalam memori, dan membaca dan menulis operasi hampir seketika, sesuai untuk pengurusan cache dan sesi. 2) Fleksibiliti: Menyokong pelbagai struktur data, seperti rentetan, senarai, koleksi, dan lain -lain, yang sesuai untuk pemprosesan data yang kompleks. 3) Sokongan Struktur Data: Menyediakan rentetan, senarai, koleksi, jadual hash, dan lain -lain, yang sesuai untuk keperluan perniagaan yang berbeza.

Redis: Mengenal pasti fungsi utamanyaApr 12, 2025 am 12:01 AM

Fungsi teras Redis adalah sistem penyimpanan dan pemprosesan data berprestasi tinggi. 1) Akses data berkelajuan tinggi: Redis menyimpan data dalam memori dan menyediakan kelajuan membaca dan menulis tahap mikrosecond. 2) Struktur Data Kaya: Menyokong rentetan, senarai, koleksi, dan lain -lain, dan menyesuaikan diri dengan pelbagai senario aplikasi. 3) Kegigihan: Data berterusan ke cakera melalui RDB dan AOF. 4) Menerbitkan langganan: boleh digunakan dalam beratur mesej atau sistem komunikasi masa nyata.

Redis: Panduan untuk struktur data popularApr 11, 2025 am 12:04 AM

Redis menyokong pelbagai struktur data, termasuk: 1. String, sesuai untuk menyimpan data nilai tunggal; 2. Senarai, sesuai untuk beratur dan susunan; 3. Tetapkan, digunakan untuk menyimpan data yang tidak duplikasi; 4. Diarahkan set, sesuai untuk senarai ranking dan beratur keutamaan; 5. Jadual hash, sesuai untuk menyimpan objek atau data berstruktur.

Cara Melaksanakan Kaunter RedisApr 10, 2025 pm 10:21 PM

Kaunter Redis adalah satu mekanisme yang menggunakan penyimpanan pasangan nilai utama REDIS untuk melaksanakan operasi pengiraan, termasuk langkah-langkah berikut: mewujudkan kekunci kaunter, meningkatkan tuduhan, mengurangkan tuduhan, menetapkan semula, dan mendapatkan tuduhan. Kelebihan kaunter Redis termasuk kelajuan cepat, konkurensi tinggi, ketahanan dan kesederhanaan dan kemudahan penggunaan. Ia boleh digunakan dalam senario seperti pengiraan akses pengguna, penjejakan metrik masa nyata, skor permainan dan kedudukan, dan pengiraan pemprosesan pesanan.

Cara menggunakan baris arahan redisApr 10, 2025 pm 10:18 PM

Gunakan alat baris perintah redis (redis-cli) untuk mengurus dan mengendalikan redis melalui langkah-langkah berikut: Sambungkan ke pelayan, tentukan alamat dan port. Hantar arahan ke pelayan menggunakan nama arahan dan parameter. Gunakan arahan bantuan untuk melihat maklumat bantuan untuk arahan tertentu. Gunakan perintah berhenti untuk keluar dari alat baris arahan.

Cara Membina Mod Kluster RedisApr 10, 2025 pm 10:15 PM

Mod Redis cluster menyebarkan contoh Redis ke pelbagai pelayan melalui sharding, meningkatkan skalabilitas dan ketersediaan. Langkah -langkah pembinaan adalah seperti berikut: Buat contoh Redis ganjil dengan pelabuhan yang berbeza; Buat 3 contoh sentinel, memantau contoh redis dan failover; Konfigurasi fail konfigurasi sentinel, tambahkan pemantauan maklumat contoh dan tetapan failover; Konfigurasi fail konfigurasi contoh Redis, aktifkan mod kluster dan tentukan laluan fail maklumat kluster; Buat fail nodes.conf, yang mengandungi maklumat setiap contoh Redis; Mulakan kluster, laksanakan perintah Buat untuk membuat kluster dan tentukan bilangan replika; Log masuk ke kluster untuk melaksanakan perintah maklumat kluster untuk mengesahkan status kluster; buat

Cara Membaca Gilir RedisApr 10, 2025 pm 10:12 PM

Untuk membaca giliran dari Redis, anda perlu mendapatkan nama giliran, membaca unsur -unsur menggunakan arahan LPOP, dan memproses barisan kosong. Langkah-langkah khusus adalah seperti berikut: Dapatkan nama giliran: Namakannya dengan awalan "giliran:" seperti "giliran: my-queue". Gunakan arahan LPOP: Keluarkan elemen dari kepala barisan dan kembalikan nilainya, seperti LPOP Queue: My-Queue. Memproses Baris kosong: Jika barisan kosong, LPOP mengembalikan nihil, dan anda boleh menyemak sama ada barisan wujud sebelum membaca elemen.

See all articles