之前写过一篇涂鸦之作,使用redis位图统计日活,位图是常见的基于数组的数据结构,可以把数组中的每个字节的每一位都有效利用起来,这样就可以大大节省空间,一个字节就可以记录8个0或1的值,这就是位图的基本思想,使用位图可以轻松记录日活,判断某个数据是否存在,实现布隆过滤器等。

位图在内部维护一个数组,数组中的每个字节占8位,所以要表示0~999这1000个数字只需要125个字节,对比我们通常使用的一个整数4字节而言,极大地节省了空间。

999

998


9

8

7

6

5

4

3

2

1

0

1

1


0

0

0

0

0

0

0

0

1

1

当我们要存储数据时,只需将目标位设置为1,即表示该数据存在,例如我们要记录用户号1,2,5,7当日活跃,可以使用1个字节表示。

7

6

5

4

3

2

1

0

1

0

1

0

0

1

1

0

下面使用Java模拟一下Bitmap。

在Java中使用byte来声明一个字节,1byte = 8bit,使用一个字节数组即可,另外需要记录字节数组的长度length,方便起见记录下活跃数1的个数active。

public class Bitmap {

    private byte[] bytes;
    private int length;
    private int active;

    public Bitmap(int length) {
        length = length;
        bytes = new byte[length % 8 == 0 ? length / 8 : length / 8 + 1];
    }
}

有了基本的数据结构,我们将要设置的数据映射到目标bit位,这里根据value值true或false设置,其他值0或1均可。

当value值为true时,使用目标位所在的字节与1(左移目标位个位置,与目标位对齐)做或运算,目的就是把原字节中目标位设置为1。

当value值为false时,使用目标位所在的字节与1(左移目标位个位置,与目标位对齐,并取反) 做与运算,目的就是把原字节中目标位置设置为0,当然这里是兼顾修改操作,如果忽略修改操作,此步可省略。

设置true的时候顺手记录一下活跃个数,方便统计活跃数。

public void set(int index, boolean value) {
    int i = index % 8;
    if (value) {
        active++;
        bytes[index / 8] |= (1 << i);
    } else {
        bytes[index / 8] &= ~(1 << i);
    }
}

有了set操作,继续实现一下get操作。

只需找到目标位 i 所在的字节,然后将目标位置为最高位,即将目标位左边的位全部置为0,也即将目标位右移(7-i)个位置。

然后将获得的值再次右移 i 位,就得到了目标位上的值,值为0则为false,值为1则为true。

public boolean get(int index) {
    int i = index % 8;
    if ((bytes[index / 8] & (0b11111111 >>> (7 - i))) >> i == 0) {
        return false;
    }
    return true;
}

获取活跃数可以直接返回active的值。

public int getActive(){
    return active;
}