前言

前段时间面试,面试官问我一个问题,听说你看过zookeeper源码,那你能告诉我zookeeper是不是强一致性的,如果是,又怎么保证数据强一致性的吗? 针对这个问题, 我从下面几个角度进行了分析和解答。

什么是一致性

一致性就是指数据在多个副本节点之间是一致的,也就是说,你在一个副本节点上修改了数据,其他副本节点也会相应的修改数据。

接下来再说一下什么是强一致性,强一致性指的是你在一个副本节点修改了数据,那么在其他副本节点都能立刻读到最新修改的数据。

zookeeper是强一致性吗

zookeeper使用的ZAB协议进行主从数据同步,ZAB协议认为只要是过半数节点写入成为,数据就算写成功了,然后会告诉客户端A数据写入成功,如果这个时候客户端B恰好访问到还没同步最新数据的zookeeper节点,那么读到的数据就是不一致性的,因此zookeeper无法保证写数据的强一致性,只能保证最终一致性,而且可以保证同一客户端的顺序一致性。

在zookeeper官方网站上专门有一段文档对此进行了说明,有兴趣的可以进去看一下(https://zookeeper.apache.org/doc/r3.5.8/zookeeperProgrammers.html

如何实现真正的强一致性

zookeeper既然不是强一致性的,那我们如何能保证两个客户端读到的数据是一致性的呢,那就是sync方法,zookeeper原生客户端API和Curator客户端都提供了该sync()方法,调用sync()方法之后,zookeeper集群会保证集群所有节点数据都是一致性的,此时客户端再去任意节点读取数据,都能读取最新的数据。

总结

zookeeper不保证强一致性的原因,我认为是在性能和可用性(A)和一致性之间(C)做了取舍。

1.如果节点之间存在网络延迟,而又要所有节点都同步数据才算成功,那么写性能非常的差;

2.如果有一个节点挂了,无法同步数据,那么此时整个集群就无法提供写服务,无法保证可用性.