這篇文章是Redis的實戰篇,介紹一下使用Redis Bitmap實作億級海量資料統計的方法,希望對大家有幫助!
在行動應用程式的業務場景中,我們需要保存這樣的資訊:一個 key 關聯了一個資料集合。 【相關推薦:Redis影片教學】
常見的場景如下:
如何選擇合適的資料集合,我們首先要了解常用的統計模式,並運用合理的資料了性來解決實際問題。
四個統計類型:本文將由String、Set、Zset、List、hash二值狀態統計型別
作為實戰篇系列的開篇,文中將用到
來實作。 文章涉及到的指令可以透過線上 Redis 用戶端運行調試,地址:try.redis.io/,超方便的說。
寄語
多分享多付出,前期多給別人創造價值並且不計回報,從長遠來看,這些付出都會成倍的回報你。
特別是剛開始跟別人合作的時候,不要去計較短期的回報,沒有太大意義,更多的是鍛鍊自己的視野、視角以及解決問題的能力。
二值狀態統計
碼哥,什麼是二值狀態統計呀?也就是集合中的元素的值只有0 和1 兩種,在簽到打卡和使用者是否登陸的場景中,只需記錄簽到(1)
或
未簽到(0),
已登入(1)或未登陸(0)
。#len
:佔4 個位元組,表示buf 的已使用長度。alloc:佔 4 個位元組,表示 buf 實際分配的長度,通常 > len。
buf:位元組數組,保存實際的數據,Redis 自動在數組最後加上一個 “\0”,額外佔用一個位元組的開銷。 ###所以,在 SDS 中除了 buf 保存實際的數據, len 與 alloc 就是額外的開銷。 ######另外,還有一個###RedisObject 結構的開銷###,因為Redis 的資料型別有很多,而且,不同資料型別都有些相同的元資料要記錄(例如最後一次存取的時間、被引用的次數等)。 ######所以,Redis 會用一個 RedisObject 結構體來統一記錄這些元數據,同時指向實際數據。 ###############對於二值狀態場景,我們就可以利用 Bitmap 來實作。例如登陸狀態我們用 bit 位元表示,一億個使用者也只佔 一億 個 bit 位元記憶體 ≈ (100000000 / 8/ 1024/1024)12 MB。 ###大概的空间占用计算公式是:($offset/8/1024/1024) MB######什麼是 Bitmap 呢? ###
Bitmap 的底层数据结构用的是 String 类型的 SDS 数据结构来保存位数组,Redis 把每个字节数组的 8 个 bit 位利用起来,每个 bit 位 表示一个元素的二值状态(不是 0 就是 1)。
可以将 Bitmap 看成是一个 bit 为单位的数组,数组的每个单元只能存储 0 或者 1,数组的下标在 Bitmap 中叫做 offset 偏移量。
为了直观展示,我们可以理解成 buf 数组的每个字节用一行表示,每一行有 8 个 bit 位,8 个格子分别表示这个字节中的 8 个 bit 位,如下图所示:
8 个 bit 组成一个 Byte,所以 Bitmap 会极大地节省存储空间。 这就是 Bitmap 的优势。
怎么用 Bitmap 来判断海量用户中某个用户是否在线呢?
Bitmap 提供了 GETBIT、SETBIT
操作,通过一个偏移值 offset 对 bit 数组的 offset 位置的 bit 位进行读写操作,需要注意的是 offset 从 0 开始。
只需要一个 key = login_status 表示存储用户登陆状态集合数据, 将用户 ID 作为 offset,在线就设置为 1,下线设置 0。通过 GETBIT
判断对应的用户是否在线。 50000 万 用户只需要 6 MB 的空间。
SETBIT 命令
SETBIT <key> <offset> <value>
设置或者清空 key 的 value 在 offset 处的 bit 值(只能是 0 或者 1)。
GETBIT 命令
GETBIT <key> <offset>
获取 key 的 value 在 offset 处的 bit 位的值,当 key 不存在时,返回 0。
假如我们要判断 ID = 10086 的用户的登陆情况:
第一步,执行以下指令,表示用户已登录。
SETBIT login_status 10086 1
第二步,检查该用户是否登陆,返回值 1 表示已登录。
GETBIT login_status 10086
第三步,登出,将 offset 对应的 value 设置成 0。
SETBIT login_status 10086 0
在签到统计中,每个用户每天的签到用 1 个 bit 位表示,一年的签到只需要 365 个 bit 位。一个月最多只有 31 天,只需要 31 个 bit 位即可。
比如统计编号 89757 的用户在 2021 年 5 月份的打卡情况要如何进行?
key 可以设计成 uid:sign:{userId}:{yyyyMM}
,月份的每一天的值 - 1 可以作为 offset(因为 offset 从 0 开始,所以 offset = 日期 - 1
)。
第一步,执行下面指令表示记录用户在 2021 年 5 月 16 号打卡。
SETBIT uid:sign:89757:202105 15 1
第二步,判断编号 89757 用户在 2021 年 5 月 16 号是否打卡。
GETBIT uid:sign:89757:202105 15
第三步,统计该用户在 5 月份的打卡次数,使用 BITCOUNT
指令。该指令用于统计给定的 bit 数组中,值 = 1 的 bit 位的数量。
BITCOUNT uid:sign:89757:202105
这样我们就可以实现用户每个月的打卡情况了,是不是很赞。
如何统计这个月首次打卡时间呢?
Redis 提供了 BITPOS key bitValue [start] [end]
指令,返回数据表示 Bitmap 中第一个值为 bitValue
的 offset 位置。
在默认情况下, 命令将检测整个位图, 用户可以通过可选的 start
参数和 end
参数指定要检测的范围。
所以我们可以通过执行以下指令来获取 userID = 89757 在 2021 年 5 月份首次打卡日期:
BITPOS uid:sign:89757:202105 1
需要注意的是,我们需要将返回的 value + 1 ,因为 offset 从 0 开始。
在记录了一个亿的用户连续 7 天的打卡数据,如何统计出这连续 7 天连续打卡用户总数呢?
我们把每天的日期作为 Bitmap 的 key,userId 作为 offset,若是打卡则将 offset 位置的 bit 设置成 1。
key 对应的集合的每个 bit 位的数据则是一个用户在该日期的打卡记录。
一共有 7 个这样的 Bitmap,如果我们能对这 7 个 Bitmap 的对应的 bit 位做 『与』运算。
同样的 UserID offset 都是一样的,当一个 userID 在 7 个 Bitmap 对应对应的 offset 位置的 bit = 1 就说明该用户 7 天连续打卡。
结果保存到一个新 Bitmap 中,我们再通过 BITCOUNT
统计 bit = 1 的个数便得到了连续打卡 7 天的用户总数了。
Redis 提供了 BITOP operation destkey key [key ...]
这个指令用于对一个或者多个 键 = key 的 Bitmap 进行位元操作。
opration
可以是 and
、OR
、NOT
、XOR
。当 BITOP 处理不同长度的字符串时,较短的那个字符串所缺少的部分会被看作 0
。空的 key
也被看作是包含 0
的字符串序列。
便于理解,如下图所示:
3 个 Bitmap,对应的 bit 位做「与」操作,结果保存到新的 Bitmap 中。
操作指令表示将 三个 bitmap 进行 AND 操作,并将结果保存到 destmap 中。接着对 destmap 执行 BITCOUNT 统计。
// 与操作 BITOP AND destmap bitmap:01 bitmap:02 bitmap:03 // 统计 bit 位 = 1 的个数 BITCOUNT destmap
简单计算下 一个一亿个位的 Bitmap占用的内存开销,大约占 12 MB 的内存(10^8/8/1024/1024),7 天的 Bitmap 的内存开销约为 84 MB。同时我们最好给 Bitmap 设置过期时间,让 Redis 删除过期的打卡数据,节省内存。
思路才是最重要,当我们遇到的统计场景只需要统计数据的二值状态,比如用户是否存在、 ip 是否是黑名单、以及签到打卡统计等场景就可以考虑使用 Bitmap。
只需要一个 bit 位就能表示 0 和 1。在统计海量数据的时候将大大减少内存占用。
原文地址:https://juejin.cn/post/6999908907791417351
作者:码哥字节
更多编程相关知识,请访问:编程视频!!
以上是手把手帶你使用Redis+Bitmap實現億級海量數據統計的詳細內容。更多資訊請關注PHP中文網其他相關文章!