分布式BloomFilter实现
 

布隆算法是一个以牺牲一定的准确率来换取低内存消耗的过滤算法,可以实现大量数据的过滤、去重等操作。

利用Redis的BitMap实现布隆过滤器的底层映射。


BloomFilter

请求到达正式业务之前, 判断该请求是否有效
维护一个大的bit数组, 把有效key的一次或多次的hash索引位置标志已存在. 当有请求进来时, 计算进来的key的hash索引, 判断每一个索引的值是否为true.
常用于处理缓存穿透问题


选用redis实现的好处


部署高可用节点时, 减少每一个节点的开销
redis可以持久化, 避免因服务器宕机导致需要重新灌数据的开销
redis中可实现的数组长度更长,大数据量下,hash索引可散列的范围更大


实现
索引个数,bit数组长度

使用google中根据原有数据长度计算索引个数, bit数组长度的方法


hash算法


使用一个key衍生出多个key, 根据对bit长度求余的hash算法


initBloomFilter方法


根据数据的长度, 计算hash个数,和bit数组长度, 将以上信息和容错率信息保存到redis中(这样可以实现多个过滤器)
使用通道将信息,所有数据压到redis中,使用通道可以提高效率,减少网络开销(测试时初始数据,可以减少75%时间)
 

首先看下项目需要的jar包
 

         org.springframework.bootspring-boot-starter-data-redisio.lettucelettuce-coreredis.clientsjediscom.google.guavaguava19.0

 

代码

package com.until;

import com.google.common.base.Preconditions;
import com.google.common.hash.Funnel;
import com.google.common.hash.Hashing;

public class BloomFilterHelper{

    private int numHashFunctions; //hash循环次数

    private int bitSize; //bitsize长度

    private Funnelfunnel;

    /**
     * @param funnel
     * @param expectedInsertions 期望插入长度
     * @param fpp 误差率
     */
    public BloomFilterHelper(Funnelfunnel, int expectedInsertions, double fpp) {
        Preconditions.checkArgument(funnel != null, "funnel不能为空");
        this.funnel = funnel;
        bitSize = optimalNumOfBits(expectedInsertions, fpp);
        numHashFunctions = optimalNumOfHashFunctions(expectedInsertions, bitSize);
    }

    /**
     * 计算bit数组长度
     */
    int[] murmurHashOffset(T value) {
        int[] offset = new int[numHashFunctions];

        long hash64 = Hashing.murmur3_128().hashObject(value, funnel).asLong();
        int hash1 = (int) hash64;
        int hash2 = (int) (hash64 >>> 32);
        for (int i = 1; i <= numHashFunctions; i++) {
            int nextHash = hash1 + i * hash2;
            if (nextHash < 0) {
                nextHash = ~nextHash;
            }
            offset[i - 1] = nextHash % bitSize;
        }

        return offset;
    }

    /**
     * 计算bit数组的长度
     */
    private int optimalNumOfBits(long n, double p) {
        if (p == 0) {
            p = Double.MIN_VALUE;
        }
        return (int) (-n * Math.log(p) / (Math.log(2) * Math.log(2)));
    }

    /**
     * 计算hash方法执行次数
     */
    private int optimalNumOfHashFunctions(long n, long m) {
        return Math.max(1, (int) Math.round((double) m / n * Math.log(2)));
    }



}

 

 

package com.until;

import com.google.common.base.Preconditions;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.data.redis.core.RedisTemplate;
import org.springframework.stereotype.Service;

/**
 * @Author : JCccc
 * @CreateTime : 2020/4/23
 * @Description :
 **/
@Service
public class RedisBloomFilter {

    @Autowired
    private RedisTemplate redisTemplate;

    /**
     * 根据给定的布隆过滤器添加值
     */
    publicvoid addByBloomFilter(BloomFilterHelperbloomFilterHelper, String key, T value) {
        Preconditions.checkArgument(bloomFilterHelper != null, "bloomFilterHelper不能为空");
        int[] offset = bloomFilterHelper.murmurHashOffset(value);
        for (int i : offset) {
            System.out.println("key : " + key + " " + "value : " + i);
            redisTemplate.opsForValue().setBit(key, i, true);
        }
    }

    /**
     * 根据给定的布隆过滤器判断值是否存在
     */
    publicboolean includeByBloomFilter(BloomFilterHelperbloomFilterHelper, String key, T value) {
        Preconditions.checkArgument(bloomFilterHelper != null, "bloomFilterHelper不能为空");
        int[] offset = bloomFilterHelper.murmurHashOffset(value);
        for (int i : offset) {
            System.out.println("key : " + key + " " + "value : " + i);
            if (!redisTemplate.opsForValue().getBit(key, i)) {
                return false;
            }
        }

        return true;
    }


}

 

调用:

package com.controller;



import com.google.common.base.Charsets;
import com.google.common.hash.Funnel;
import com.until.BloomFilterHelper;
import com.until.RedisBloomFilter;
import io.swagger.annotations.Api;
import io.swagger.annotations.ApiOperation;
import lombok.extern.slf4j.Slf4j;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;

import javax.annotation.Resource;
import java.util.UUID;

@RequestMapping("/redisBloomFilter")
@Api(tags = "布朗过滤器", value = "redis相关接口")
@RestController
@Slf4j
public class RedisBloomFilterController {

    @Resource
    private RedisBloomFilter redisBloomFilter;


    BloomFilterHelpermyBloomFilterHelper = new BloomFilterHelper<>(
            (Funnel) (from, into) -> into.putString(from, Charsets.UTF_8).putString(from, Charsets.UTF_8), 150000, 0.00001);

    @GetMapping("/redis/bloomFilter")
    @ApiOperation("redis布隆过滤器数据添加")
    public void redisBloomFilter(){

        //ListallResourceId = redisBloomFilter.getAllResourceId();
        for (int i=0;i<10;i++) {
            String uuid = UUID.randomUUID().toString().replaceAll("-","");
            System.out.println("uuid:"+uuid);

            //将所有的资源id放入到布隆过滤器中
            redisBloomFilter.addByBloomFilter(myBloomFilterHelper,"bloom",uuid);
        }
        //return new ResponseResult(ResponseEnum.SUCCESS);
    }

    @GetMapping("/redis/bloomFilter/resourceId")
    @ApiOperation("redis布隆过滤器资源测试")
    public void redisBloomFilterResourceId(@RequestParam("resourceId")String resourceId){
        boolean mightContain = redisBloomFilter.includeByBloomFilter(myBloomFilterHelper,"bloom",resourceId);
        if (!mightContain){
            System.out.println("错误:"+mightContain);
            // return new QueryResult<>(ResCenterEnum.RESOURCE_EXSIT,"");
        }
        // return new ResponseResult(ResponseEnum.SUCCESS);
    }

}