01 为什么用分布式锁

在讨论这个问题之前,我们先来看一个业务场景:系统 A 是一个电商系统,目前是一台机器部署,系统中有一个用户下订单的接口,但是用户下订单之前一定要去检查一下库存,确保库存足够了才会给用户下单。

由于系统有一定的并发,所以会预先将商品的库存保存在 redis 中,用户下单的时候会更新 redis 的库存。

此时系统架构如下:

SpringCloud 实现分布式锁_java

但是这样一来会产生一个问题:假如某个时刻,redis 里面的某个商品库存为 1,此时两个请求同时到来,其中一个请求执行到上图的第 3 步,更新数据库的库存为 0,但是第 4 步还没有执行。

而另外一个请求执行到了第 2 步,发现库存还是 1,就继续执行第 3 步。这样的结果,是导致卖出了 2 个商品,然而其实库存只有 1 个。很明显不对啊!这就是典型的库存超卖问题,此时,我们很容易想到解决方案:用锁把 2、3、4 步锁住,让他们执行完之后,另一个线程才能进来执行第 2 步。

SpringCloud 实现分布式锁_数据库_02

按照上面的图,在执行第 2 步时,使用 Java 提供的 synchronized 或者 ReentrantLock 来锁住,然后在第 4 步执行完之后才释放锁。

这样一来,2、3、4 这 3 个步骤就被 “锁” 住了,多个线程之间只能串行化执行。

但是好景不长,整个系统的并发飙升,一台机器扛不住了。现在要增加一台机器,如下图:

SpringCloud 实现分布式锁_redis_03

增加机器之后,系统变成上图所示,假设此时两个用户的请求同时到来,但是落在了不同的机器上,那么这两个请求是可以同时执行了,还是会出现库存超卖的问题。

为什么呢?因为上图中的两个 A 系统,运行在两个不同的 JVM 里面,他们加的锁只对属于自己 JVM 里面的线程有效,对于其他 JVM 的线程是无效的。

因此,这里的问题是:Java 提供的原生锁机制在多机部署场景下失效了。

这是因为两台机器加的锁不是同一个锁 (两个锁在不同的 JVM 里面)。

那么,我们只要保证两台机器加的锁是同一个锁,问题不就解决了吗?此时,就该分布式锁隆重登场了,分布式锁的思路是:

在整个系统提供一个全局、唯一的获取锁的 “东西”,然后每个系统在需要加锁时,都去问这个“东西” 拿到一把锁,这样不同的系统拿到的就可以认为是同一把锁。

SpringCloud 实现分布式锁_数据库_04

通过上面的分析,我们知道了库存超卖场景在分布式部署系统的情况下使用 Java 原生的锁机制无法保证线程安全,所以我们需要用到分布式锁的方案。

02 基于 Redis 实现分布式锁

上面分析为啥要使用分布式锁了,这里我们来具体看看分布式锁落地的时候应该怎么样处理。

最常见的一种方案就是使用 Redis 做分布式锁。

2.1 redis使用 Redis 做分布式锁的思路大概是这样的:在 redis 中设置一个值表示加了锁,然后释放锁的时候就把这个 key 删除。

具体代码是这样的:

// 获取锁

// NX 是指如果 key 不存在就成功,key 存在返回 false,PX 可以指定过期时间

SET anyLock unique_value NX PX 30000

// 释放锁:通过执行一段 lua 脚本

// 释放锁涉及到两条指令,这两条指令不是原子性的

// 需要用到 redis 的 lua 脚本支持特性,redis 执行 lua 脚本是原子性的

if redis.call("get",KEYS[1]) == ARGV[1] then

return redis.call("del",KEYS[1])

else

return 0

end

这种方式有几大要点:

  1. 一定要用 SET key value NX PX milliseconds 命令如果不用,先设置了值,再设置过期时间,这个不是原子性操作,有可能在设置过期时间之前宕机,会造成死锁 (key 永久存在)
  2. value 要具有唯一性,这个是为了在解锁的时候,需要验证 value 是和加锁的一致才删除 key。
    这是避免了一种情况:假设 A 获取了锁,过期时间 30s,此时 35s 之后,锁已经自动释放了,A 去释放锁,但是此时可能 B 获取了锁。A 客户端就不能删除 B 的锁了。

SpringCloud 实现分布式锁_分布式锁_05

除了要考虑客户端要怎么实现分布式锁之外,还需要考虑 redis 的部署问题。

redis 有 3 种部署方式:

  • 单机模式
  • master-slave + sentinel 选举模式
  • redis cluster 模式

使用 redis 做分布式锁的缺点在于:如果采用单机部署模式,会存在单点问题,只要 redis 故障了。加锁就不行了。

采用 master-slave 模式,加锁的时候只对一个节点加锁,即便通过 sentinel 做了高可用,但是如果 master 节点故障了,发生主从切换,此时就会有可能出现锁丢失的问题。

基于以上的考虑,其实 redis 的作者也考虑到这个问题,他提出了一个 RedLock 的算法,这个算法的意思大概是这样的:

假设 redis 的部署模式是 redis cluster,总共有 5 个 master 节点,通过以下步骤获取一把锁:

  • 获取当前时间戳,单位是毫秒
  • 轮流尝试在每个 master 节点上创建锁,过期时间设置较短,一般就几十毫秒
  • 尝试在大多数节点上建立一个锁,比如 5 个节点就要求是 3 个节点(n / 2 +1)
  • 客户端计算建立好锁的时间,如果建立锁的时间小于超时时间,就算建立成功了
  • 要是锁建立失败了,那么就依次删除这个锁
  • 只要别人建立了一把分布式锁,你就得不断轮询去尝试获取锁

但是这样的这种算法还是颇具争议的,可能还会存在不少的问题,无法保证加锁的过程一定正确。

SpringCloud 实现分布式锁_分布式锁_06

03 Redisson 实现分布式锁

此外,实现 Redis 的分布式锁,除了自己基于 redis client 原生 api 来实现之外,还可以使用开源框架:Redission

Redisson 是一个企业级的开源 Redis Client,也提供了分布式锁的支持。我也非常推荐大家使用,为什么呢?

SET anyLock unique_value NX PX 30000

这里设置的超时时间是 30s,假如我超过 30s 都还没有完成业务逻辑的情况下,key 会过期,其他线程有可能会获取到锁。

这样一来的话,第一个线程还没执行完业务逻辑,第二个线程进来了也会出现线程安全问题。所以我们还需要额外的去维护这个过期时间,太麻烦了~

我们来看看 redisson 是怎么实现的?先感受一下使用 redission 的爽:

Config config = new Config();
config.useClusterServers()
setScanInterval(2000) // 集群状态扫描间隔时间,单位是毫秒
// 可以用 "rediss://" 来启用 SSL 连接
addNodeAddress("redis://127.0.0.1:7000", "redis://127.0.0.1:7001")
addNodeAddress("redis://127.0.0.1:7002");

RedissonClient redisson = Redisson.create(config);

RLocklock = redisson.getLock("anyLock");
lock.lock();
lock.unlock();

就是这么简单,我们只需要通过它的 api 中的 lock 和 unlock 即可完成分布式锁,他帮我们考虑了很多细节:

  1. redisson 所有指令都通过 lua 脚本执行,redis 支持 lua 脚本原子性执行
  2. redisson 设置一个 key 的默认过期时间为 30s, 如果某个客户端持有一个锁超过了 30s 怎么办?
  3. redisson 中有一个 watchdog 的概念,翻译过来就是看门狗,它会在你获取锁之后,每隔 10 秒帮你把 key 的超时时间设为 30s, 这样的话,就算一直持有锁也不会出现 key 过期了,其他线程获取到锁的问题了。
  4. redisson 的 “看门狗” 逻辑保证了没有死锁发生。(如果机器宕机了,看门狗也就没了。此时就不会延长 key 的过期时间,到了 30s 之后就会自动过期了,其他线程可以获取到锁)

SpringCloud 实现分布式锁_分布式锁_07

对于 redisson 更多的用法请参考官方文档:​​https://github.com/redisson/redisson/wiki/​

小结:本节分析了使用 redis 作为分布式锁的具体落地方案,以及其一些局限性,然后介绍了一个 redis 的客户端框架 redisson,这也是我推荐大家使用的,比自己写代码实现会少 care 很多细节。

03 基于 zookeeper 实现分布式锁

常见的分布式锁实现方案里面,除了使用 redis 来实现之外,使用 zookeeper 也可以实现分布式锁。在介绍 zookeeper(下文用 zk 代替) 实现分布式锁的机制之前,先粗略介绍一下 zk 是什么东西:

Zookeeper 是一种提供配置管理、分布式协同以及命名的中心化服务。

zk 的模型是这样的:zk 包含一系列的节点,叫做 znode,就好像文件系统一样每个 znode 表示一个目录,然后 znode 有一些特性:

  1. 有序节点:假如当前有一个父节点为 / lock,我们可以在这个父节点下面创建子节点;zookeeper 提供了一个可选的有序特性,例如我们可以创建子节点 “/lock/node-” 并且指明有序,那么 zookeeper 在生成子节点时会根据当前的子节点数量自动添加整数序号也就是说,如果是第一个创建的子节点,那么生成的子节点为 / lock/node-0000000000,下一个节点则为 / lock/node-0000000001,依次类推。
  2. 临时节点:客户端可以建立一个临时节点,在会话结束或者会话超时后,zookeeper 会自动删除该节点。
  3. 临时节点:客户端可以建立一个临时节点,在会话结束或者会话超时后,zookeeper 会自动删除该节点。
  • 节点创建
  • 节点删除
  • 节点数据修改
  • 子节点变更

基于以上的一些 zk 的特性,我们很容易得出使用 zk 实现分布式锁的落地方案:

  1. 使用 zk 的临时节点和有序节点,每个线程获取锁就是在 zk 创建一个临时有序的节点,比如在 / lock / 目录下。
  2. 创建节点成功后,获取 / lock 目录下的所有临时节点,再判断当前线程创建的节点是否是所有的节点的序号最小的节点
  3. 如果当前线程创建的节点是所有节点序号最小的节点,则认为获取锁成功。
  4. 如果当前线程创建的节点不是所有节点序号最小的节点,则对节点序号的前一个节点添加一个事件监听。比如当前线程获取到的节点序号为 / lock/003, 然后所有的节点列表为 [/lock/001,/lock/002,/lock/003], 则对 / lock/002 这个节点添加一个事件监听器。如果锁释放了,会唤醒下一个序号的节点,然后重新执行第 3 步,判断是否自己的节点序号是最小。

比如 / lock/001 释放了,/lock/002 监听到时间,此时节点集合为 [/lock/002,/lock/003], 则 / lock/002 为最小序号节点,获取到锁。

整个过程如下:

SpringCloud 实现分布式锁_分布式锁_08

具体的实现思路就是这样,至于代码怎么写,这里比较复杂就不贴出来了。

小结:学完了两种分布式锁的实现方案之后,本节需要讨论的是 redis 和 zk 的实现方案中各自的优缺点。

对于 redis 的分布式锁而言,它有以下缺点:

  • 它获取锁的方式简单粗暴,获取不到锁直接不断尝试获取锁,比较消耗性能。
  • 另外来说的话,redis 的设计定位决定了它的数据并不是强一致性的,在某些极端情况下,可能会出现问题。锁的模型不够健壮
  • 即便使用 redlock 算法来实现,在某些复杂场景下,也无法保证其实现 100% 没有问题,关于 redlock 的讨论可以看 How to do distributed locking
  • redis 分布式锁,其实需要自己不断去尝试获取锁,比较消耗性能。

但是另一方面使用 redis 实现分布式锁在很多企业中非常常见,而且大部分情况下都不会遇到所谓的 “极端复杂场景”

所以使用 redis 作为分布式锁也不失为一种好的方案,最重要的一点是 redis 的性能很高,可以支撑高并发的获取、释放锁操作。

对于 zk 分布式锁而言:

  • zookeeper 天生设计定位就是分布式协调,强一致性。锁的模型健壮、简单易用、适合做分布式锁。
  • 如果获取不到锁,只需要添加一个监听器就可以了,不用一直轮询,性能消耗较小。

但是 zk 也有其缺点:如果有较多的客户端频繁的申请加锁、释放锁,对于 zk 集群的压力会比较大。

小结:综上所述,redis 和 zookeeper 都有其优缺点。我们在做技术选型的时候可以根据这些问题作为参考因素。

04 基于数据库的实现方式

基于数据库的实现方式的核心思想是:在数据库中创建一个表,表中包含方法名等字段,并在方法名字段上创建唯一索引,想要执行某个方法,就使用这个方法名向表中插入数据,成功插入则获取锁,执行完成后删除对应的行数据释放锁。

DROP TABLE IF EXISTS `method_lock`;
CREATE TABLE `method_lock` (
`id` int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
`method_name` varchar(64) NOT NULL COMMENT '锁定的方法名',
`desc` varchar(255) NOT NULL COMMENT '备注信息',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
PRIMARY KEY (`id`),
UNIQUE KEY `uidx_method_name` (`method_name`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8 COMMENT='锁定中的方法';

想要执行某个方法获取得到锁,就使用这个方法名向表中插入数据:

INSERT INTO method_lock (method_name, desc) VALUES ('methodName', '测试的methodName');

因为我们对​​method_name​​做了唯一性约束,这里如果有多个请求同时提交到数据库的话,数据库会保证只有一个操作可以成功,那么我们就可以认为操作成功的那个线程获得了该方法的锁,可以执行方法体内容。

成功插入则获取锁,执行完成后删除对应的行数据释放锁:

delete from method_lock where method_name ='methodName';

注意:这只是使用基于数据库的一种方法,使用数据库实现分布式锁还有很多其他的玩法!

使用基于数据库的这种实现方式很简单,但是对于分布式锁应该具备的条件来说,它有一些问题需要解决及优化:

  1. 因为是基于数据库实现的,数据库的可用性和性能将直接影响分布式锁的可用性及性能,所以,数据库需要双机部署、数据同步、主备切换;
  2. 不具备可重入的特性,因为同一个线程在释放锁之前,行数据一直存在,无法再次成功插入数据,所以,需要在表中新增一列,用于记录当前获取到锁的机器和线程信息,在再次获取锁的时候,先查询表中机器和线程信息是否和当前机器和线程相同,若相同则直接获取锁;
  3. 没有锁失效机制,因为有可能出现成功插入数据后,服务器宕机了,对应的数据没有被删除,当服务恢复后一直获取不到锁,所以,需要在表中新增一列,用于记录失效时间,并且需要有定时任务清除这些失效的数据;
  4. 不具备阻塞锁特性,获取不到锁直接返回失败,所以需要优化获取逻辑,循环多次去获取。
  5. 在实施的过程中会遇到各种不同的问题,为了解决这些问题,实现方式将会越来越复杂;依赖数据库需要一定的资源开销,性能问题需要考虑。