布隆過濾器是一個神奇的資料結構,這篇文章帶大家深入了解一下布隆過濾器,介紹一下Redis中使用布隆過濾器的方法。
什麼是『布隆過濾器』
#布隆過濾器是一個神奇的資料結構,可以用來判斷一個元素是否在一個集合中。很常用的功能是用來去重。在爬蟲中常見的一個需求:目標網站 URL 千千萬,怎麼判斷某個 URL 爬蟲是否寵幸過?簡單點可以爬蟲每採集過一個 URL,就把這個 URL 存入資料庫中,每次一個新的 URL 過來就到資料庫查詢下是否有造訪過。 【相關推薦:Redis影片教學】
select id from table where url = 'https://jaychen.cc'
但是隨著爬蟲爬過的URL 越來越多,每次請求前都要訪問資料庫一次,並且對於這種字串的SQL 查詢效率不高。除了資料庫之外,使用 Redis 的 set 結構也可以滿足這個需求,而且效能優於資料庫。但是 Redis 也存在一個問題:耗費過多的記憶體。這時候布隆過濾器就很橫的出場了:這個問題讓我來。
比起資料庫和 Redis,使用布隆過濾器可以很好的避免效能和記憶體佔用的問題。
布隆過濾器本質是一個位元組,位數組就是數組的每個元素都只佔用 1 bit 。每個元素只能是 0 或 1。這樣申請一個 10000 個元素的位數組只佔 10000 / 8 = 1250 B 的空間。布隆過濾器除了一個位數組,還有 K 個雜湊函數。當一個元素加入布隆濾波器中的時候,會進行如下操作:
- 使用 K 個雜湊函數對元素值進行 K 次計算,得到 K 個雜湊值。
- 根據所得的雜湊值,在位數組中把對應下標的值置為 1。
舉個,假設布隆過濾器有 3 個雜湊函數:f1, f2, f3 和一個位元組 arr
。現在要把 https://jaychen.cc
插入布隆過濾器中:
- 對值進行三次雜湊計算,得到三個值 n1, n2, n3。
- 把位數組中三個元素 arr[n1], arr[n2], arr[3] 設為 1。
當要判斷一個值是否在布隆過濾器中,對元素再次進行哈希計算,得到值之後判斷位數組中的每個元素是否都為1,如果值都為1,那麼說明這個值在布隆過濾器中,如果存在一個值不為1,表示該元素不在布隆過濾器中。
看不懂文字看下面的靈魂畫手的圖解釋
#看了上面的說明,必然會提出一個問題:當插入的元素原來越多,位數組中被置為1 的位置就越多,當一個不在布隆過濾器中的元素,經過哈希計算之後,得到的值在位數組中查詢,有可能這些位置也都被置為1。這樣一個不存在布隆過濾器中的也有可能被誤判成在布隆過濾器中。但是如果布隆過濾器判斷說一個元素不在布隆過濾器中,那麼這個值就一定不在布隆過濾器中。簡單來說:
- 布隆過濾器說某個元素在,可能會被誤判。
- 布隆濾鏡說某個元素不在,那一定不在。
這個布隆過濾器的缺陷放到上面爬蟲的需求中,可能存在某些沒有訪問過的URL 可能會被誤判為訪問過,但是如果是訪問過的URL 一定不會誤判沒訪問過。
Redis 中的布隆過濾器
redis 在4.0 的版本中加入了module 功能,布隆過濾器可以透過module 的形式加入redis 中,所以使用redis 4.0 以上的版本可以透過載入module 來使用redis 中的布隆過濾器。但這不是最簡單的方式,使用 docker 可以直接在 redis 中體驗布隆過濾器。
> docker run -d -p 6379:6379 --name bloomfilter redislabs/rebloom > docker exec -it bloomfilter redis-cli
redis 布隆過濾器主要就兩個指令:
-
#bf.add
新增元素到布隆過濾器中:bf. add urls https://jaychen.cc
。 -
bf.exists
判斷某個元素是否在篩選器中:bf.exists urls https://jaychen.cc
。
上面說過布隆過濾器有誤判的情況,在 redis 中有兩個值決定布隆過濾器的準確率:
-
error_rate
:允许布隆过滤器的错误率,这个值越低过滤器的位数组的大小越大,占用空间也就越大。 -
initial_size
:布隆过滤器可以储存的元素个数,当实际存储的元素个数超过这个值之后,过滤器的准确率会下降。
redis 中有一个命令可以来设置这两个值:
bf.reserve urls 0.01 100
三个参数的含义:
- 第一个值是过滤器的名字。
- 第二个值为
error_rate
的值。 - 第三个值为
initial_size
的值。
使用这个命令要注意一点:执行这个命令之前过滤器的名字应该不存在,如果执行之前就存在会报错:(error) ERR item exists
更多编程相关知识,请访问:编程入门!!
以上是什麼是布隆過濾器? Redis中如何使用?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Redis的核心功能是高性能的內存數據存儲和處理系統。 1)高速數據訪問:Redis將數據存儲在內存中,提供微秒級別的讀寫速度。 2)豐富的數據結構:支持字符串、列表、集合等,適應多種應用場景。 3)持久化:通過RDB和AOF方式將數據持久化到磁盤。 4)發布訂閱:可用於消息隊列或實時通信系統。

Redis支持多種數據結構,具體包括:1.字符串(String),適合存儲單一值數據;2.列表(List),適用於隊列和棧;3.集合(Set),用於存儲不重複數據;4.有序集合(SortedSet),適用於排行榜和優先級隊列;5.哈希表(Hash),適合存儲對像或結構化數據。

Redis計數器是一種使用Redis鍵值對存儲來實現計數操作的機制,包含以下步驟:創建計數器鍵、增加計數、減少計數、重置計數和獲取計數。 Redis計數器的優勢包括速度快、高並發、持久性和簡單易用。它可用於用戶訪問計數、實時指標跟踪、遊戲分數和排名以及訂單處理計數等場景。

使用 Redis 命令行工具 (redis-cli) 可通過以下步驟管理和操作 Redis:連接到服務器,指定地址和端口。使用命令名稱和參數向服務器發送命令。使用 HELP 命令查看特定命令的幫助信息。使用 QUIT 命令退出命令行工具。

Redis集群模式通過分片將Redis實例部署到多個服務器,提高可擴展性和可用性。搭建步驟如下:創建奇數個Redis實例,端口不同;創建3個sentinel實例,監控Redis實例並進行故障轉移;配置sentinel配置文件,添加監控Redis實例信息和故障轉移設置;配置Redis實例配置文件,啟用集群模式並指定集群信息文件路徑;創建nodes.conf文件,包含各Redis實例的信息;啟動集群,執行create命令創建集群並指定副本數量;登錄集群執行CLUSTER INFO命令驗證集群狀態;使

要從 Redis 讀取隊列,需要獲取隊列名稱、使用 LPOP 命令讀取元素,並處理空隊列。具體步驟如下:獲取隊列名稱:以 "queue:" 前綴命名,如 "queue:my-queue"。使用 LPOP 命令:從隊列頭部彈出元素並返回其值,如 LPOP queue:my-queue。處理空隊列:如果隊列為空,LPOP 返回 nil,可先檢查隊列是否存在再讀取元素。

Redis 集群中使用 zset:zset 是一種有序集合,將元素與評分關聯。分片策略: a. 哈希分片:根據 zset 鍵的哈希值分佈。 b. 範圍分片:根據元素評分劃分為範圍,並將每個範圍分配給不同的節點。讀寫操作: a. 讀操作:如果 zset 鍵屬於當前節點的分片,則在本地處理;否則,路由到相應的分片。 b. 寫入操作:始終路由到持有 zset 鍵的分片。

如何清空 Redis 數據:使用 FLUSHALL 命令清除所有鍵值。使用 FLUSHDB 命令清除當前選定數據庫的鍵值。使用 SELECT 切換數據庫,再使用 FLUSHDB 清除多個數據庫。使用 DEL 命令刪除特定鍵。使用 redis-cli 工具清空數據。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Atom編輯器mac版下載
最受歡迎的的開源編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器