雪花算法
- 1. 什么是雪花算法
- 2. 特性
- 2.1 分布式ID生成规则硬性要求:
- 2.2 分布式ID生成可用性要求:
- 2.3 雪花算法优缺点
- 2.4 雪花算法的几个核心组成部分
- 3. SpringBoot 整合雪花算法--依赖hutool
- 3.1 pom
- 3.2 yaml
- 3.3 config 类
- 3.4 controller 类
- 3.5 优缺点
- 4. SpringBoot 整合雪花算法--自定义
- 5. 如果需要更大的id生成量
1. 什么是雪花算法
雪花算法是Twitter公司发明的一种算法,主要目的是解决在分布式环境下,ID怎样生成的问题。
注:本文内容是尚硅谷的雪花算法教程的笔记。
2. 特性
2.1 分布式ID生成规则硬性要求:
全局唯一:不能出现重复的ID号,既然是唯一标识,这是最基本的要求。
趋势递增:MySQL中InnoDB引擎使用的是聚集索引。多数RDBMS使用Btree的数据结构来存储索引数据,在主键的选择上尽量选择有序的主键保证写入性能。
单调递增:保证下一个ID号一定大于上一个。
信息安全:如果ID是连续的,恶意用户的扒取工作就非常容易做了,直接按照顺序下载指定URL即可。
如果是订单号就更危险了,竞争对手可以知道我们一天的单量。
所以在一些场景下,需要ID无规则不规则,让竞争对手不好猜。
含时间戳:这样能够在开发中快速了解这个分布式id的生成时间
2.2 分布式ID生成可用性要求:
高可用:发布一个获取分布式ID的请求,服务器就要保证99.999%的情况下给创建一个全局唯一的分布式ID。
低延迟:发布一个获取分布式ID的请求,要快,急速。高QPS:假如并发一口气10万个创建分布式ID请求同时杀过来,服务器要顶得住并且成功创建10万个分布式ID。
2.3 雪花算法优缺点
Twitter的分布式自增ID算法snowflake(雪花算法)优缺点:
优点:经测试snowflake每秒能生成26万个自增可排序的ID。snowflake生成的ID结果是一个64bit大小的整数,为一个Long型 (转换成字符串后长度最多19)。分布式系统内不会产生ID碰撞(datacenter和workerId作区分)并且效率高。不依赖数据库等第三方系统,以服务的方式部署,稳定性更高,生成ID的性能也非常高,可以根据自身业务分配bit位,非常灵活。
经测试Snowflake每秒能生成26万个自增可排序的ID
1). Twitter 的 SnowFlake 能够按照时间有序生成
2). SnowFlake生成的ID结果是一个64bit大小的整数,为一个Long型(转换成字符串后长度最多19)
3). 分布式系统内不会产生ID碰撞(datacenter和workerId作区分) 并且效率高
分布式系统中,有一些需要时间全局唯一ID的场景,生成ID的基本要求:
1. 在分布式的环境下必须全局且唯一
2. 一般都需要单调递增,因为一般唯一ID都会存到数据库,而Innodb的特性就是将内容存储在主键索引上的叶子节点,而且是从左往右,递增的。
所以考虑到数据库性能, 一般生成的id也最好是单调递增。
为了防止ID冲突可以使用36位的UUID,但是UUID的缺点是它相对比较长,而且UUID一般是无序的
4. 可能还会需要无规则,因为如果使用了唯一ID作为订单号,为了不让别人直到一天的订单量是多少,就需要这个规则
2.4 雪花算法的几个核心组成部分
号段解析:
1bit
- 不用,因为二进制中最高位是符号位,1表示负数,0表示正数。
- 生成的id一般都是用整数,所以最高位固定为0
41bit-时间戳,用来记录时间戳,毫秒级
- 41位可以表示2^{41} - 1个数字
- 如果只用来表示正整数(计算机中正整数包含0),可以表示的数值范围是0至2^{41} - 1。
- 也就是说41为可以表示2^{41} - 1个毫秒的值,转化成单位年则是2^{41} - 1/(1000*60*60*24*265)=69.73年
10bit-工作机器id,用来记录工作机器id
- 可以部署在2^{10}-1=1024个节点,包括5为datacenterId和5位workerId
- 5位(bit)可以表示的最大正整数是2^{5}-1=31,即0到31这32个数字,来表示不同的datacenterId或workerId
12bit - 序列号,用来记录同毫秒内产生的不同id
- 12位(bit)可以表示的最大正整数是2^{12}-1=4095,即可以使用0 到 2094 这个4095个数字,
来表示同一机器同一时间戳(毫秒)内产生4095个ID序号
SnowFlake 可以保证:
所有生成的id按照时间趋势递增
整个分布式系统内不会产生重复id(因为有datacenterId和workerId来作区分)
3. SpringBoot 整合雪花算法–依赖hutool
Twitter SnowFlake GitHub位置:
https://github.com/twitter-archive/snowflake
3.1 pom
使用hutool工具包
<dependency>
<groupId>cn.hutool</groupId>
<artifactId>hutool-captcha</artifactId>
<version>4.6.8</version>
</dependency>
3.2 yaml
application:
snowflake:
workerId: 1 # 0 - 31
datacenterId: 2 # 0 - 31
server:
port: 8765
3.3 config 类
package com.pyh.snowflake.config;
import cn.hutool.core.lang.Snowflake;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
@Configuration
public class SnowFlakeConfig {
@Value("${application.snowflake.workerId}")
private long workerId;
@Value("${application.snowflake.datacenterId}")
private long datacenterId;
@Bean
public Snowflake snowflake(){
return new Snowflake(workerId,datacenterId);
}
}
3.4 controller 类
package com.pyh.snowflake.controller;
import cn.hutool.core.lang.Snowflake;
import com.pyh.snowflake.service.SnowFlakeService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;
import javax.annotation.Resource;
import java.time.LocalDateTime;
import java.util.*;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.Future;
@RestController
public class SnowFlakeController {
@Resource
SnowFlakeService snowFlakeService;
@Autowired
Snowflake snowflake;
@GetMapping("/snowflake")
public String getGeneratedId(){
return snowFlakeService.getIDFromSnowFlake();
}
/**
* 数据量大的时候,会产生重复的list
* 这个不是很推荐,因为下面有更好的实现
* @return
*/
@GetMapping("/configSnowflake2")
public Set getConfigSnowFlake2(){
int count = 200000;
System.out.println("getConfigSnowFlake2 开始生成id......");
ExecutorService executor = Executors.newCachedThreadPool();
Set list = Collections.synchronizedSet(new HashSet<>());
System.out.println("getConfigSnowFlake2 开始时间" + LocalDateTime.now());
for (int i =0 ; i<count; i++){
executor.submit(() -> {
list.add(Long.toString(snowflake.nextId()));
});
}
System.out.println("getConfigSnowFlake2 结束时间" + LocalDateTime.now());
System.out.println(list.size());
return list;
}
/**
* 能承受住很大的并发量, 两百万个完全不重复的id能够在2秒内生成
getConfigSnowFlake1 开始生成id......
getConfigSnowFlake1 开始时间2022-04-19T01:37:04.385
getConfigSnowFlake1 结束时间2022-04-19T01:37:06.814
生成id结束2000000
* @return
*/
@GetMapping("/configSnowflake")
public Set getConfigSnowFlake(){
int count = 200000;
System.out.println("getConfigSnowFlake1 开始生成id......");
ExecutorService executor = Executors.newCachedThreadPool();
List countList = new ArrayList();
//测试生成20w个id
for (int i = 0; i < count; i++) {
countList.add(i);
}
//使用set测试是否有重复,结果没有任何重复
Set list = Collections.synchronizedSet(new HashSet<>());
System.out.println("getConfigSnowFlake1 开始时间" + LocalDateTime.now());
countList.parallelStream().forEach((i) -> {
Future<String> futureTask = executor.submit(() -> {
return Long.toString(snowflake.nextId());
});
String id = null;
try {
id = futureTask.get();
} catch (Exception e2) {
e2.printStackTrace();
}
list.add(id);
});
// executor.shutdown(); // no need to shutdown
System.out.println("getConfigSnowFlake1 结束时间" + LocalDateTime.now());
System.out.println("生成结束" + list.size());
return list;
}
}
3.5 优缺点
优点:
毫秒数在高位,自增序列在低位,整个ID都是趋势递增的。
不依赖数据库等第三方系统,以服务的方式部署,稳定性更高,生成ID的性能也是非常高的。
可以根据自身的业务特性分配bit位,非常灵活。
缺点:
依赖机器时钟,如果机器时钟回拨,会导致重复ID生成
在单机上是递增的,但是由于设计到分布式环境,每台机器上的时钟不可能完全同步,有时候会出现不是全局递增的情况
(此缺点可以认为无所谓,一般分布式ID只要求趋势递增,并不会严格要求递增,很大一部分的需求都只要求趋势递增)
4. SpringBoot 整合雪花算法–自定义
实现得很好,自己有空参考文章在本地实现,并在这里补上内容
5. 如果需要更大的id生成量
推荐:
百度开源的分布式唯一ID生成器UidGenerator
美团点评分布式ID生成系统–Leaf