redis哨兵主节点恢复后不能变成从节点 redis哨兵部署遇到的问题_主从切换

哨兵简介

主机”宕机“后我们要做的事情

redis哨兵主节点恢复后不能变成从节点 redis哨兵部署遇到的问题_服务器_02

  • 将宕机的master下线
  • 找一个slave作为master
  • 通知所有的slave连接新的master
  • 启动新的master与slave
  • 全量复制*N+部分复制 *N

但是这伴随着以下问题

  • 谁来确认master宕机了
  • 找一个主?怎么找法
  • 修改配置后,原始的主恢复了怎么办?

哨兵
哨兵(sentinel) 是一个分布式系统,用于对主从结构中的每台服务器进行监控,当出现故障时通过投票机制选择新的master并将所有slave连接到新的master

redis哨兵主节点恢复后不能变成从节点 redis哨兵部署遇到的问题_主从切换_03

哨兵的作用

  • 监控
    不断地检查master和slave是否正常运行
    master存活检测、master与slave运行情况检测
  • 通知(提醒)
    当被监控地服务器出现问题时,向其他(哨兵间,客户端)发送通知
  • 自动故障转移
    断开master与slave连接,选取一个slave作为master,将其他slave连接到新的master,并告知客户端新的服务器地址

注意:哨兵也是一台redis服务器,只是不提供数据服务,通常哨兵配置数量为单数

启用哨兵模式
  • 配置一拖二的主从结构
  • 配置三个哨兵(配置相同,端口不同)
    查看sentinel.conf
  • 启动哨兵

redis-sentinel sentinel-端口号.conf

redis哨兵主节点恢复后不能变成从节点 redis哨兵部署遇到的问题_主从切换_04

哨兵工作原理

主从切换

  • 哨兵在进行主从切换过程中经历三个阶段
  1. 监控
  2. 通知
  3. 故障转移

阶段一:监控阶段

sentinel会向master要状态,然后根据master中的slave信息向slave要状态,也会向其他的sentinel要状态,而且,sentinel之间会组建一个对应的频道,在里面发布信息、订阅信息、收信息、同步信息。这就是监控阶段的工作过程。

redis哨兵主节点恢复后不能变成从节点 redis哨兵部署遇到的问题_服务器_05

redis哨兵主节点恢复后不能变成从节点 redis哨兵部署遇到的问题_服务器_06


阶段二:通知阶段

维护一个长期的信息对等阶段。sentinel侦听master、slave的状态,并在sentinel之间交互,维护信息对等。

redis哨兵主节点恢复后不能变成从节点 redis哨兵部署遇到的问题_redis_07


阶段三:故障转移阶段

只有一个sentinel侦测到一个master挂了时,将其状态记为S_DOWN(主观下线),然后,将该主机挂了的消息在sentinel内网中交互,然后,其他的sentinel得到该消息,就也去看该主机是否真的挂了,如果超过半数的sentinel认为master挂了,那就是真的挂了(客观下线 ),状态记为O_DOWN。一旦进入客观下线状态,就开始清理队伍。

redis哨兵主节点恢复后不能变成从节点 redis哨兵部署遇到的问题_主从切换_08


选择领头哨兵

redis哨兵主节点恢复后不能变成从节点 redis哨兵部署遇到的问题_主从切换_09


处置阶段

redis哨兵主节点恢复后不能变成从节点 redis哨兵部署遇到的问题_redis_10


总结:

  • 监控 ——》同步信息
  • 通知——》保持联通
  • 故障转移
    发现问题-》竞选负责人-》优选新master-》新master上任,其他slave切换master,原master作为slave故障回复后连接