哨兵简介
主机”宕机“后我们要做的事情
- 将宕机的master下线
- 找一个slave作为master
- 通知所有的slave连接新的master
- 启动新的master与slave
- 全量复制*N+部分复制 *N
但是这伴随着以下问题
- 谁来确认master宕机了
- 找一个主?怎么找法
- 修改配置后,原始的主恢复了怎么办?
哨兵
哨兵(sentinel) 是一个分布式系统,用于对主从结构中的每台服务器进行监控,当出现故障时通过投票机制选择新的master并将所有slave连接到新的master
哨兵的作用
- 监控
不断地检查master和slave是否正常运行
master存活检测、master与slave运行情况检测 - 通知(提醒)
当被监控地服务器出现问题时,向其他(哨兵间,客户端)发送通知 - 自动故障转移
断开master与slave连接,选取一个slave作为master,将其他slave连接到新的master,并告知客户端新的服务器地址
注意:哨兵也是一台redis服务器,只是不提供数据服务,通常哨兵配置数量为单数
启用哨兵模式
- 配置一拖二的主从结构
- 配置三个哨兵(配置相同,端口不同)
查看sentinel.conf - 启动哨兵
redis-sentinel sentinel-端口号.conf
哨兵工作原理
主从切换
- 哨兵在进行主从切换过程中经历三个阶段
- 监控
- 通知
- 故障转移
阶段一:监控阶段
sentinel会向master要状态,然后根据master中的slave信息向slave要状态,也会向其他的sentinel要状态,而且,sentinel之间会组建一个对应的频道,在里面发布信息、订阅信息、收信息、同步信息。这就是监控阶段的工作过程。
阶段二:通知阶段
维护一个长期的信息对等阶段。sentinel侦听master、slave的状态,并在sentinel之间交互,维护信息对等。
阶段三:故障转移阶段
只有一个sentinel侦测到一个master挂了时,将其状态记为S_DOWN(主观下线),然后,将该主机挂了的消息在sentinel内网中交互,然后,其他的sentinel得到该消息,就也去看该主机是否真的挂了,如果超过半数的sentinel认为master挂了,那就是真的挂了(客观下线 ),状态记为O_DOWN。一旦进入客观下线状态,就开始清理队伍。
选择领头哨兵
处置阶段
总结:
- 监控 ——》同步信息
- 通知——》保持联通
- 故障转移
发现问题-》竞选负责人-》优选新master-》新master上任,其他slave切换master,原master作为slave故障回复后连接