Zookeeper的分布式机器部署

  • ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

一、 Zookeeper的选举机制

  • Zookeeper集群能保证自身的高可用,保证自身高可用的原理是,Zookeeper集群中的各个机器分为Leader和Follower两个角色,写入数据时,要先写入Leader,Leader同意写入后,再通知Follower写入。客户端读取数时,因为数据都是一样的,可以从任意一台机器上读取数据。
  • 这里Leader角色就存在单点故障的隐患,高可用就是解决单点故障隐患的。Zookeeper从机制上解决了Leader的单点故障问题,Leader是哪一台机器是不固定的,Leader是选举出来的。选举流程是,集群中任何一台机器发现集群中没有Leader时,就推荐自己为Leader,其他机器来同意,当超过一半数的机器同意它为Leader时,选举结束,所以Zookeeper集群中的机器数据必须是奇数。这样就算当Leader机器宕机后,会很快选举出新的Leader,保证了Zookeeper集群本身的高可用。

二、写入高可用

  • 集群中的写入操作都是先通知Leader,Leader再通知Follower写入,实际上当超过一半的机器写入成功后,就认为写入成功了,所以就算有些机器宕机,写入也是成功的。

三、读取高可用

  • zookeeperk客户端读取数据时,可以读取集群中的任何一个机器。所以部分机器的宕机并不影响读取。
  • zookeeper服务器必须是奇数台,因为zookeeper有选举制度,角色有:领导者、跟随者、观察者,选举的目的是保证集群中数据的一致性。

四、安装zookeeper

  1. 解压安装包
tar -zxvf  zookeeper-3.4.7.tar.gz
  1. 修改配置
  • 拷贝conf下的zoo_sample.cfg副本,改名为zoo.cfg。zoo.cfg是zookeeper的配置文件:
cp  zoo_sample.cfg zoo.cfg
  • dataDir属性设置zookeeper的数据文件存放的目录:

dataDir=/home/software/zookeeper-3.4.7/tmp/zookeeper

  • 指定zookeeper集群中各个机器的信息:
server.1=hadoop01:2888:3888
server.2=hadoop02:2888:3888
server.3=hadoop03:2888:3888
  • server后面的数字范围是1到255,所以一个zookeeper集群最多可以有255个机器。
  1. 创建myid文件
  • 在dataDir所指定的目录下创一个名为myid的文件,文件内容为server点后面的数字。
  1. 分发 zookeeper 到其他机器
[root@hadoop01 software]# scp -r zookeeper-3.4.7 hadoop02:/home/software/
[root@hadoop01 software]# scp -r zookeeper-3.4.7 hadoop03:/home/software/
  1. 修改其他机器上的myid文件
  • 将其他机器上 “myid” 文件修改为 service. 对应的值
  1. 启动zookeeper
  • 需要在各个机器上分别启动zookeeper。
[root@hadoop01 bin]# ./zkService.sh start
[root@hadoop02 bin]# ./zkService.sh start
[root@hadoop03 bin]# ./zkService.sh start

五、zookeeper命令

  • 进入zookeeper Shell
  • 在zookeeper根目录下执行 bin/zkCli.sh进入zk shell模式。
  • zookeeper很像一个小型的文件系统,/是根目录,下面的所有节点都叫zNode。
进入zk shell 后输入任意字符,可以列出所有的zookeeper命令
查询zNode上的数据:get /zookeeper
列出所有子zNode:ls /
创建一个zNode: create /znode "demonode"
删除znode : rmr  /znode
退出shell模式:quit

完毕!