分布式系统中全局唯一id是我们经常用到的,生成全局id方法由很多,我们选择的时候也比较纠结。每种方式都有各自的使用场景,如果我们熟悉各种方式及优缺点,结合自身的业务,使用的时候才能更好的选择。
本文主要讨论
1、常见的生成全局唯一id有哪些?
2、他们各有什么优缺点?
下面我们就一起来看一下常见的生成全局唯一id的方法
1. 使用数据库自动增长序列实现
使用数据库的自动增长来实现,算是常见最简单的解决方案,数据库内部可以确保生成id的唯一性。
优点:
1)实现简单
2)id是有序的,对于有排序需求的比较有利
缺点:
1)依赖于数据库数据插入,性能比较低
2)对数据库有依赖,每种数据库可能实现不一样,数据库切换时候,涉及到代码的修改,不利于扩展
2. 使用UUID实现
也是比较常见的解决方案,uuid全球唯一。
优点:
1)代码简单
2)性能比较好
3)对其他无依赖,方便扩展
缺点:
1)uuid是一段很长的字符,没有排序的,无法保证按顺序递增
2)uuid比较长,存储在数据库中占用的空间也比较大,不利于检索和排序
3)生成的数据比较长,数据量大的情况下,对传输效率也会有影响
3. 使用redis实现
我们可以使用redis的原子操作 INCR和INCRBY来实现,redis性能也比较高,若单机存在性能瓶颈,无法满足业务需求,可以采用集群的方式来实现。
多个集群之间增加步长来避免生成id重复的问题,如有5台redis:
第1台生成:1、6、11、16
第2台生成:2、7、12、17
第3台生成:3、8、13、18
第4台生成:4、9、14、19
第5台生成:5、10、15、20
redis重启的时候,数据可能会丢失,可以在生成的id前面加上一个时间戳来做到唯一性。
优点:
1)性能比较高
2)生成的数据是有序的,对排序业务有利
缺点:
1)依赖于redis,需要系统引进redis组件,增加了系统的复杂性
4. 使用Twitter的snowflake算法实现
这个是twitter的一个全局唯一id生成器,结果是一个long型的ID。其核心思想是:使用41bit作为毫秒数,10bit作为机器的ID(5个bit是数据中心,5个bit的机器ID),12bit作为毫秒内的流水号(意味着每个节点在每毫秒可以产生 4096 个 ID),最后还有一个符号位,永远是0。具体实现的代码可以参看https://github.com/twitter/snowflake
5. 使用数据库+本地缓存实现高效ID生成器
数据库中存储一个数字类型的字段cur_value,初始化为0,我们每次可以申请n个数字,然后将数据缓存在本地,使用时直接从缓存中获取。
过程:
1)创建表
CREATE TABLE `yjd_id_generator` (
`id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '编号',
`code` varchar(64) NOT NULL DEFAULT '' COMMENT '编码',
`cur_value` bigint(20) NOT NULL DEFAULT '1' COMMENT '当前值',
`description` varchar(128) NOT NULL DEFAULT '' COMMENT '说明',
PRIMARY KEY (`id`),
UNIQUE KEY `idx_uq_code` (`code`)
) ENGINE=InnoDB AUTO_INCREMENT=24 DEFAULT CHARSET=utf8 COMMENT='id生成器,cur_value每次递增一定的范围'
cur_value记录当前已申请到的最大值。
2) 通过code查询表yjd_id_generator中的记录,将cur_value更新为cur_value+n,更新成功,表示(cur_value,n]范围内的数字我们申请成功,可以使用。存在一个并发问题,需要避免多个线程同时更新的问题,我们可以通过使用cur_value作为条件进行更新,即采用乐观锁的方式进行更新,如果更新成功,表示申请成功,假如查询的cur_value值为100,那么在cur_value上递增100,此时cur_value = 200,执行如下更新操作:
update yjd_id_generator set cur_value = 200 where code = '业务编码’ and cur_value = 100;
若上面的sql执行成功,表示更新成功,上面通过乐观锁保证了并发情况下只有一个请求会执行成功。如果更新失败,表示cur_value被其他线程更新了,需要重复获取记录继续执行更新操作,类似于java中的cas操作。
4) 把生成好的id放在本地内存缓存队列中给系统使用,效率也是非常高的。
5) 原码可以点击底部"阅读原文"
优点:
1)性能比较高
2)生成的数据是有序的,对排序业务有利
缺点:
1)依赖于数据库