布隆过滤器与redis bitmap的区别 bitmap和布隆过滤器

转载

mob64ca13f40f3d 2023-11-18 15:28:16

文章标签 数据结构布隆过滤器数组 hash函数 文章分类 Redis 数据库

Bitmap 位图映射

简单的来说Bitmap就是将数值作为数组的下标，数组的每个值的每一位（int正常在32位机上占4个字节，也即是可以32位）非0即1.如果某个数字存在的话就置为1。Bitmap的缺点：每个元素对应一个bit，这种映射的方法比较适合数字的查找，空间复杂度随着最大元素的增大而增加；优点是处理大量数据是可以大大减少空间的消耗，空间复杂度不随着原始集合内的元素个数增加而增加。Bitmap主要是用于大规模数据的查找，并且数据的状态不多。

布隆过滤器

布隆过滤器的数据结构就是一个bit数组，不需要key，相对于hashmap比较节省空间。布隆过滤器一旦确定之后就不能删除元素。

BF的话感觉上是Bitmap的进阶版，可以用于字符串的查找。其原理是将一个元素经过K个hash函数生成K个点，对应数组中的值置为1 。检索时如果检索到这几个位都是1的话说明这个元素很可能在这个元素中，检索时候有一位是0的话就一定存在此元素。

上面说的“很可能”表达的意思已经很清楚，实际上BF是损失了一定的准确性，来达到空间和时间上的极致优化。BF不用存储key值，能省去很大一部分的空间，并且通过hash函数可以在规定的误判率和bit数组长度内达到查重的理想效果。

布隆过滤器的向量表的大小，对于hash冲突有很大的影响，一般来说，向量表越长，说明hash冲突的概率就越小，但是内存的占用就越大。hashmap主要是占用内存，为了避免高碰撞，一般hash存到一半的数据时就会扩容，浪费空间。布隆过滤的话就是使用多个hash来解决hash冲突较高的问题。

布隆过滤器与redis bitmap的区别 bitmap和布隆过滤器_数据结构

下面简单说一下BF怎样给定错误率的情况下，完成检索的呢？以下是公式的推导：我们假设原始的数集有n个，bit数组的长度为m，hash函数的个数为k：
（1）bit数组中某一位不被设为1的概率为：1 - 1/m
（2）k个hash过后生成k个点，此时不被设为1的概率为：(1 - 1/m)^k
（3）n个原始集合插入结束之后，此时不被设置为1的概率为: (1 - 1/m)^kn，反过来被设置为1的概率为1 - (1 - 1/m)^kn，这就是匹配到全部元素为1的误算率。
通过公式反推：我们可以简单的得出k，m，n这三者之间的关系：
k = m/n * ln2约等于0.7 * m/n

m：布隆过滤器的长度；n：n个元素；k：有k个hash函数；p：误判的概率
计算误判率的公式：p = 1 - (1 - 1/m)^kn
同时还能得出以下结论：要保持P不变的话，比特数和元素的个数需要线性增长；想要降低误判率的话，需要增大m或者减小n。