zookeeper
是一个分布式协调服务
paxos小岛的故事
小岛(Island)——ZK Server Cluster
议员(Senator)——ZK Server
提议(Proposal)——ZNode Change(Create/Delete/SetData…)
提议编号(PID)——Zxid(ZooKeeper Transaction Id)
正式法令——所有ZNode及其数据
总统——ZK Server Leader
在hadoop中zookeeper的事件确保整个集群只有一个NameNode,配置信息等
在Hbase中zookeeper事件处理确保整个集群只有一个HMaster,察觉HRegionServer联机和宕机,存储访问控制列表等.
状态和角色
Server状态
LOOKING:当前Server不知道leader是谁,正在搜寻
LEADING:当前Server即为选举出来的leader
FOLLOWING:leader已经选举出来,当前Server与之同步
领导者(leader):负责进行投票的发起和决议,更新系统状态
学习者(learner):包括跟随者(follower)和观察者(observer),follower用于接受客户端请求并向客户端返回结果,在选主过程中参与投票
Observer :可以接受客户端连接,将写请求转发给leader,但observer不参加投票过程,只同步leader的状态,observer的目的是为了扩展系统,提高读取速度
客户端(client):请求发起方
zookeeper的特点
最终一致性:为客户端展示同一个视图,这是zookeeper里面一个非常重要的功能
可靠性:如果消息被到一台服务器接受,那么它将被所有的 服务器接受,节点故障不影响使用
实时性:Zookeeper不能保证两个客户端能同时得到刚更新 的数据,如果需要最新数据,应该在读数据之前调 用sync()接口
独立性:各个Client之间互不干预
原子性:更新只能成功或者失败,没有中间状态。
顺序性:所有Server,同一消息发布顺序一致,FIFO
session
1、客户端通过TCP协议与独立服务器或者一个集群中的某个服务器建立会话连接。
2、会话提供顺序保障,即同一个会话中的请求以FIFO的顺序执行。如果客户端有多个并发会话,FIFO顺序在多个会话之间未必能够保持。
3、如果连接的Server出现问题,在没有超过Timeout时间时,可以连接其他节点。zookeeper客户端透明地转移一个会话到不同的服务器。
4、同一session期内的特性不变
5、当一个会话因某种原因终止,在这个会话期间创建的临时节点将会消失。
Session是由谁来创建的? Leader:产生一个唯一的session,放到消息队列,让所有server知道 过半机制:保证session创建成功或者失败
数据模型Znode
目录结构:层次的,目录型结构,便于管理逻辑关系 。节点znode而非文件file。
znode信息:包含最大1MB的数据信息 。记录了zxid等元数据信息。
节点类型:
瞬时的(ephemeral)和持久的(persistent)
znode有四种形式的目录节点
PERSISTENT
EPHEMERAL
PERSISTENT_SEQUENTIAL
EPHEMERAL_SEQUENTIAL
短暂znode的客户端会话结束时,zookeeper会将该短暂znode删除,短暂znode不可以有子节点
持久znode不依赖于客户端会话,只有当客户端明确要删除该持久znode时才会被删除
znode的类型在创建时确定并且之后不能再修改
事件监听机制
基于通知(notification)的机制(不是轮询,轮询代价大)
Client向zookeeper注册需要的znode,通过对znode设置监听点(watch)来接收通知。监视点会触发一个通知,client在每次接收到通知后设置一个新的监视点。
zookeeper的节点模式
Zookeeper的核心是原子广播,这个机制保证了各个server之间的同步。实现这个机制的协议叫做Zab协议。
Zab协议有两种模式:
恢复模式
无主,无服务 选举leader
zxid <从paxos 到 zookeeper> myid 首先选举zxid最大的 如果zxid相同,则选举myid最大的,选举过程耗时在200ms之内,一般情况下zookeeper恢复服务时间间隔不超过200ms。
广播模式
主从模式 leader维护事物的唯一和有序性 队列机制
zookeeper集群搭建
1、zookeeper集群搭建
a) 将zookeeper.tar.gz上传到node2、node3、node4
b) 解压到/software
tar -zxf zookeeper-3.4.6.tar.gz -C /software
c) 配置环境变量:
export ZOOKEEPER_HOME=/software/zookeeper-3.4.6
export PATH=$PATH:$ZOOKEEPER_HOME/bin
然后. /etc/profile让配置生效
d) 到$ZOOKEEPER_PREFIX/conf下
复制zoo_sample.cfg为zoo.cfg
cp zoo_sample.cfg zoo.cfg
e) 编辑zoo.cfg
添加如下行:
server.1=node2:2881:3881
server.2=node3:2881:3881
server.3=node4:2881:3881
修改
dataDir=/var/bjsxt/zookeeper/data
f) 创建/var/bjsxt/zookeeper/data目录,并在该目录下放一个文件:myid
在myid中写下当前zookeeper的编号
mkdir -p /var/bjsxt/zookeeper/data
echo 3 > /var/bjsxt/zookeeper/data/myid
g) 将/opt/zookeeper-3.4.6通过网络拷贝到node2、node3上
scp -r zookeeper-3.4.6/ node2:/software
scp -r zookeeper-3.4.6/ node3:/software
h) 在node2和node3上分别创建/var/bjsxt/zookeeper/data目录,
并在该目录下放一个文件:myid
node2:
mkdir -p /var/bjsxt/zookeeper/data
echo 1 > /var/bjsxt/zookeeper/data/myid
node3:
mkdir -p /var/bjsxt/zookeeper/data
echo 2 > /var/bjsxt/zookeeper/data/myid
i) 启动zookeeper
zkServer.sh start
zkServer.sh start|stop|status
j) 关闭zookeeper
zkServer.sh stop
l) 连接zookeeper
zkCli.sh
m) 退出zkCli.sh命令
quit
命令
zkServer.sh start 启动集群
zkServer.sh status 查看集群状态
zkServer.sh stop 停止集群
create /sxt "hello" 创建节点数据
create -e /sxte "" 创建临时节点数据
get /sxt 获取节点数据
set /sxt "good" 修改节点数据
常见参数
tickTime:发送心跳的间隔时间,单位:毫秒
dataDir:zookeeper保存数据的目录。
clientPort:客户端连接 Zookeeper 服务器的端口,Zookeeper 会监听这个端口,接受客户端的访问请求。
initLimit: 这个配置项是用来配置 Zookeeper 接受客户端(这里所说的客户端不是用户连接Zookeeper服务器的客户端,而是 Zookeeper 服务器集群中连接到 Leader的Follower 服务器)初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过 5 个心跳的时间(也就是 tickTime)长度后 Zookeeper 服务器还没有收到客户端的返回信息,那么表明这个客户端连接失败。总的时间长度就是 5*2000=10秒
syncLimit:这个配置项标识 Leader 与 Follower 之间发送消息,请求和应答时间长度,最长不能超过多少个tickTime 的时间长度,总的时间长度就是 2*2000=4 秒
server.A=B:C:D:其 中 A 是一个数字,表示这个是第几号服务器;B 是这个服务器的ip地址;C 表示的是这个服务器与集群中的Leader服务器交换信息的端口;D表示的是万一集群中的 Leader 服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口。如果是伪集群的配置方式,由于B都是一样,所以不同的Zookeeper实例通信端口号不能一样,所以要给它们分配不同的端口号。
zookeeper命令操作
create /sxt hello 创建节点
get /sxt 获取节点
set /sxt 修改节点数据
create /sxt/csxt 创建子节点
ls / 查看节点目录
ls /sxt 查看节点目录
节点中的数据不超过1M
持久化节点的事务ID单调递增
父节点中的pZxid记录子节点中的最高事务ID
create -e /sxte “ ” 创建临时节点
get /sxte 获取临时节点
临时节点没有子节点,如果关掉创建临时节点的客户端,则在另一个session中查看,在超过过期时间之后该临时节点消失。 如果在过期时间内客户端恢复,则临时节点不会消失。
cZxid:节点创建时的zxid
ctime:节点创建时间
mZxid:节点最近一次更新时的zxid
mtime:节点最近一次更新的时间
cversion:子节点数据更新次数
dataVersion:本节点数据更新次数
aclVersion:节点ACL(授权信息)的更新次数
ephemeralOwner:如果该节点为临时节点,
ephemeralOwner值表示与该节点绑定的session id. 如果该节点不是临时节点,ephemeralOwner值为0
API操作
1、watcher事件是一次性的
2、是增删改触发watcher,但是watcher是线程异步执行
3、watcher可以反复注册