1.简介
脑裂问题是分布式系统中的经典网络问题,如下图所示,3个节点组成的集群,突然node1的网络和其它两个节点中断。那么当node2和node3连接不上node1时,它们会重新选举master,比如node2被推选成新的master,此时会更新cluster state,而node1自己组成集群后,也会更新cluster state。这时,同一个集群中就会有2个master,而且维护着不同的cluster state,网络恢复后就无法选择正确的master,这就是脑裂问题。
2.解决方案
解决方案为通过在配置文件中设置discovery.zen.minimum_master_nodes参数来避免脑裂问题。集群中的节点在选举master时,需要保证可选举master-eligible节点数大于等于quorum,quorum = master-eligible节点数/2 + 1,例如集群有3个master-eligible节点时,quorum值就为2。
上图中,node1与node2和node3失去连接时,因为不满足选举条件,因此不会进行master选举,而node2和node3满足选举master的条件,因此会选举一个新的master,待node1网络恢复后,就会加入到node2和node3的集群中,整个示意图如下图所示。