之前写过一篇涂鸦之作,使用redis位图统计日活,位图是常见的基于数组的数据结构,可以把数组中的每个字节的每一位都有效利用起来,这样就可以大大节省空间,一个字节就可以记录8个0或1的值,这就是位图的基本思想,使用位图可以轻松记录日活,判断某个数据是否存在,实现布隆过滤器等。
位图在内部维护一个数组,数组中的每个字节占8位,所以要表示0~999这1000个数字只需要125个字节,对比我们通常使用的一个整数4字节而言,极大地节省了空间。
999 | 998 | … | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1 | 0 |
1 | 1 | … | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 |
当我们要存储数据时,只需将目标位设置为1,即表示该数据存在,例如我们要记录用户号1,2,5,7当日活跃,可以使用1个字节表示。
7 | 6 | 5 | 4 | 3 | 2 | 1 | 0 |
1 | 0 | 1 | 0 | 0 | 1 | 1 | 0 |
下面使用Java模拟一下Bitmap。
在Java中使用byte来声明一个字节,1byte = 8bit,使用一个字节数组即可,另外需要记录字节数组的长度length,方便起见记录下活跃数1的个数active。
public class Bitmap {
private byte[] bytes;
private int length;
private int active;
public Bitmap(int length) {
length = length;
bytes = new byte[length % 8 == 0 ? length / 8 : length / 8 + 1];
}
}
有了基本的数据结构,我们将要设置的数据映射到目标bit位,这里根据value值true或false设置,其他值0或1均可。
当value值为true时,使用目标位所在的字节与1(左移目标位个位置,与目标位对齐)做或运算,目的就是把原字节中目标位设置为1。
当value值为false时,使用目标位所在的字节与1(左移目标位个位置,与目标位对齐,并取反) 做与运算,目的就是把原字节中目标位置设置为0,当然这里是兼顾修改操作,如果忽略修改操作,此步可省略。
设置true的时候顺手记录一下活跃个数,方便统计活跃数。
public void set(int index, boolean value) {
int i = index % 8;
if (value) {
active++;
bytes[index / 8] |= (1 << i);
} else {
bytes[index / 8] &= ~(1 << i);
}
}
有了set操作,继续实现一下get操作。
只需找到目标位 i 所在的字节,然后将目标位置为最高位,即将目标位左边的位全部置为0,也即将目标位右移(7-i)个位置。
然后将获得的值再次右移 i 位,就得到了目标位上的值,值为0则为false,值为1则为true。
public boolean get(int index) {
int i = index % 8;
if ((bytes[index / 8] & (0b11111111 >>> (7 - i))) >> i == 0) {
return false;
}
return true;
}
获取活跃数可以直接返回active的值。
public int getActive(){
return active;
}