当配置一个集群时,我们需要为每一个server配置好时间相关的参数,并指定一个server列表,这样server之间就能彼此连接并检测失败。这些配置必须在所有server中保持一致。
initLimit
此值的作用是一个follower初始化连接到leader的超时时间,单位是tickTime。
当一个follower对leader发起一个初始化连接时,可能会有很多数据要传输,特别是如果follower的数据很陈旧时,可以根据网络延迟和数据量的大小来决定这个配置。如果数据量很大的话(例如znode的数量很多或者数据很大)或者网络特别慢的话,需要增大这个值。因为这个值跟你的环境相关,所以没有默认值。你应该选择一个合适的值让最大的快照文件可以顺利传输,你可能有不止一个快照文件,你可能会把这个配置值再翻倍。如果设置得过大的话,会在初始化连接上花费过多时间导致失败,这会增加recovery的时间。因此需要根据你的实际情况进行一个benchmark来决定这个值。
syncLimit
此值的作用是follower与leader的同步数据的超时时间,单位是tickTime。
follower总是会稍稍落后于leader,但是如果落后得太多的话,由于系统负载过高或者网络问题。如果leader同步的时间超过此配置项的话,则会被leader抛弃。就像initLimit一样,syncLimit没有默认值,必须要配置它。但又不像initLimit那样依赖于存储的数据量,而只依赖于网络的延迟和吞吐量。在高延迟网络它会花更多的时间来发送和接收数据,这样自然要增加syncLimit。即使延迟相对低一些你也可能需要增大syncLimit,因为可能会相对较大的事务需要传输。
leaderServes
此选项决定leader是否会为client提供服务(zookeeper.leaderServes)。
一个集群中的leader会有很多工作要做,需要跟所有的follower沟通,并执行所有的update操作。这意味着leader的负载比follower要重。如果leader过载的话,那么整个系统可能会遭殃。
如果此配置项设置为no,那么leader就不会为client提供服务,全心全意的处理follower发送的update操作,这样会增加update操作的吞吐量。另一方面,如果leader如果不处理client请求的话,那么就会由follower们来分担,如果集群中的server数量过少的话这会是个问题。此参数默认值为yes。
server.x=[hostname]:n:n[:observer]
集群中的server需要知道互相之间如何通信,这是通过给定的x的值来指定的,x就是server的ID(一个整数)。当一个server启动时,会从数据目录中的myid文件获取x的值,server.x就代表myid文件的整数。如果当前server需要跟另一个server通信,它会使用server.y找到对应的信息进行通信。
hostname就是server的名字,还有2个TCP端口号。第一个端口是用来发送事务数据的,就是follower与leader进行数据通信的端口。第二个用来选举leader。通常设置为2888:3888。如果observer出现在最后一个字段的话,当前server就以observer模式启动。
注意这份配置在集群中的每台server中都应该是相同的,否则则不会正常工作,因为server们可能不知道如何正确的建立连接。
cnxTimeout
代表在选举leader期间建立连接的超时时间(zookeeper.cnxTimeout)。
在选举leader期间,server之间要互相建立连接。这个值决定了在重新连接之前需要等待多久来完成建立连接,你需要去深入了解选举leader的细节才能知道这个配置的作用,这里先不详述。默认值为5秒,通常已经足够了,不需要更改。
electionAlg
代表选举的算法,一般情况下不需要进行配置,默认的已经足够好了。