场景

模拟集群中有一个 master 宕机场景。

故障转移自动故障转移和手动故障转移。

自动故障转移

打开日志监控

为了更好折查看效果,通过 watch 命令实时查看集群的动态日志变化,如图:

watch redis-cli -p 30001 cluster nodes

Redis集群系列十二 —— 故障转移二_故障转移

 注意:这里最好不要指定要下线的端口,日志不能更好的展示,后续的显示中会略有差异。

节点宕机

 模拟因特殊因素造成的 30001 实例的 master 宕机

redis-cli -p 30001 shutdown

查看实例运行情况

Redis集群系列十二 —— 故障转移二_数据一致性_02

 集群日志

Redis集群系列十二 —— 故障转移二_数据迁移_03

从上面的监控日志发现,当 30001 节点挂掉后,30006  这个节点升级为 master 节点。

恢复宕机节点

手动将 30001 实例启动起来,查看集群日志

Redis集群系列十二 —— 故障转移二_redis_04

 再次分析日志,可以看到这时候 30001 只能以 slave 的身份加入了集群。

如果希望这个宕机的节点恢复后还是主节点,这该怎么办呢?

继续往下看
 

手动故障转移

使用 cluster failover 命令可以手动让集群中的某两节点进行主从身份互换,实现无感知的数据迁移。其流程如下:

Redis集群系列十二 —— 故障转移二_redis_05

手动故障转移的主要操作步骤如下:

  1. 使用 redis-cli -c -p 30001 连接 30001 节点(-c是集群模式的意思)
  2. 执行 cluster failover 命令

Redis集群系列十二 —— 故障转移二_数据迁移_06

执行 cluster failover 命令后,在集群日志中可以看到,30001 就变成了 master 节点,而 30006 成了 slave 节点。如图:

Redis集群系列十二 —— 故障转移二_故障转移_07

failover 命令有三种模式:

  • 缺省:默认的流程(两个不同节点的身份互换)
  • force:从节点不会与主节点进行交互,省略了对 offset 的一致性校验,直接进行故障转移流程。
  • takeover:不遵循故障转移流程,忽略数据一致性、忽略 master 状态和其它 master 的意见,直接升级为主节点。

以上就是 Redis 集群模式下的故障转移的过程。