etcd内部采用raft协议作为一致性算法,go语言实现。

特点:

  • 简单:安装配置简单,而且提供了HTTP API进行交互,使用也很简单
  • 安全:支持SSL证书验证
  • 快速:根据官方提供的benchmark数据,单实例支持每秒2k+读操作
  • 可靠:采用raft算法,实现分布式系统数据的可用性和一致性

概念:

  • Raft:etcd所采用的保证分布式系统强一致性的算法。
  • Node:一个Raft状态机实例。
  • Member:一个etcd实例。它管理着一个Node,并且可以为客户端请求提供服务。
  • Cluster:由多个Member构成可以协同工作的etcd集群。
  • Peer:对同一个etcd集群中另外一个Member的称呼。
  • Client:向etcd集群发送HTTP请求的客户端。
  • WAL:预写式日志,etcd用于持久化存储的日志格式。
  • snapshot:etcd防止WAL文件过多而设置的快照,存储etcd数据状态。
  • Proxy:etcd的一种模式,为etcd集群提供反向代理服务。
  • Leader:Raft算法中通过竞选而产生的处理所有数据提交的节点。
  • Follower:竞选失败的节点作为Raft中的从属节点,为算法提供强一致性保证。
  • Candidate:当Follower超过一定时间接收不到Leader的心跳时转变为Candidate开始竞选。
  • Term:某个节点成为Leader到下一次竞选时间,称为一个Term。
  • Index:数据项编号。Raft中通过Term和Index来定位数据。

读写顺序:

  • 读取:由于集群所有节点数据是强一致性的,读取可以从集群中随便哪个节点进行读取数据
  • 写入:etcd集群有leader,如果写入往leader写入,可以直接写入,然后然后Leader节点会把写入分发给所有Follower,如果往follower写入,然后Leader节点会把写入分发给所有Follower

leader选举:
    假设三个节点的集群,三个节点上均运行Timer(每个Timer持续时间是随机的),Raft算法使用随机Timer来初始化Leader选举流程,第一个节点率先完成了Timer,随后它就会向其他两个节点发送成为Leader的请求,其他节点接收到请求后会以投票回应然后第一个节点被选举为Leader。
    成为Leader后,该节点会以固定时间间隔向其他节点发送通知,确保自己仍是Leader。有些情况下当Follower们收不到Leader的通知后,比如说Leader节点宕机或者失去了连接,其他节点会重复之前选举过程选举出新的Leader。

判断数据是否写入:
    etcd认为写入请求被Leader节点处理并分发给了多数节点后,就是一个成功的写入。那么多少节点如何判定呢,假设总结点数是N,那么多数节点 Quorum=N/2+1。

架构解析:

  • HTTP Server:用于处理用户发送的 API 请求以及其它 etcd 节点的同步与心跳信息请求。
  • Store:用于处理 etcd 支持的各类功能的事务,包括数据索引、节点状态变更、监控与反馈、事件处理与执行等等,是 etcd 对用户提供的大多数 API 功能的具体实现。
  • Raft:Raft 强一致性算法的具体实现,是 etcd 的核心。
  • WAL:Write Ahead Log(预写式日志),是 etcd 的数据存储方式。除了在内存中存有所有数据的状态以及节点的索引以外,etcd 就通过 WAL 进行持久化存储。WAL 中,所有的数据提交前都会事先记录日志。
  • Snapshot 是为了防止数据过多而进行的状态快照;
  • Entry 表示存储的具体日志内容。
  • 通常,一个用户的请求发送过来,会经由 HTTP Server 转发给 Store 进行具体的事务处理,如果涉及到节点的修改,则交给 Raft 模块进行状态的变更、日志的记录,然后再同步给别的 etcd 节点以确认数据提交,最后进行数据的提交,再次同步。

分布式锁:

  • 当有多个竞争者node节点,etcd作为总控,在分布式集群中与一个节点成功分配lock

默认配置:

  • etcd 默认将数据存放到当前路径的 default.etcd/ 目录下
  • 在 http://localhost:2380 和集群中其他节点通信
  • 在 http://localhost:2379 提供 HTTP API 服务,供客户端交互
  • 该节点的名称默认为 default
  • heartbeat 为 100ms,心跳检测时间
  • election 为 1000ms,选举时间,如果 follow 在该时间间隔没有收到心跳包,会触发重新投票
  • snapshot count 为 10000,1000次事物被提交后后触发快照保存到磁盘
  • 集群和每个节点都会生成一个 uuid
  • 启动的时候,会运行 raft,选举出 leader

操作:

增加 
$ etcdctl set /testdir/testkey "Hello world"
可配置参数
--ttl '0' 该键值的超时时间(单位为秒),不配置(默认为0)则永不超时
--swap-with-value value 若该键现在的值是value,则进行设置操作
--swap-with-index '0'   若该键现在的索引值是指定索引,则进行设置操作复制代码

mk 如果给定的键不存在,则创建一个新的键值,当键存在的时候,执行该命令会报错
$ etcdctl mk /testdir/testkey "Hello world"

mkdir 如果给定的键目录不存在,则创建一个新的键目录,当键目录存在的时候,执行该命令会报错
$ etcdctl mkdir testdir2

setdir创建一个键目录。如果目录不存在就创建,如果目录存在更新目录TTL。
$ etcdctl setdir testdir3
删除
rm 删除某个键值,当键不存在时,则会报错
$ etcdctl rm /testdir/testkeyPrevNode.Value: Hello
支持的选项
--dir 如果键是个空目录或者键值对则删除
--recursive 删除目录和所有子键
--with-value  检查现有的值是否匹配
--with-index '0'检查现有的index是否匹配
rmdir 删除一个空目录,或者键值对,若目录不空,会报错
$ etcdctl rmdir dir1
更新
update当键存在时,更新值内容,当键不存在时,则会报错
$ etcdctl update /testdir/testkey "Hello"
updatedir更新一个已经存在的目录。
查询
get获取指定键的值,当键不存在时,则会报错
$ etcdctl get /testdir/testkey
选项:
--sort 对结果进行排序
--consistent 将请求发给主节点,保证获取内容的一致性。
ls 列出目录(默认为根目录)下的键或者子目录,默认不显示子目录中内容。
$ etcdctl ls
/testdir
/testdir2
/dir
选项:
--sort 将输出结果排序
--recursive 如果目录下有子目录,则递归输出其中的内容
-p 对于输出为目录,在最后添加/进行区分
watch
监测一个键值的变化,一旦键值发生更新,就会输出最新的值并退出。
$ etcdctl watch testdir/testkey
选项:
--forever  一直监测直到用户按CTRL+C退出
--after-index '0' 在指定index之前一直监测
--recursive 返回所有的键值和子键值

exec-watch监测一个键值的变化,一旦键值发生更新,就执行给定命令
$ etcdctl exec-watch testdir/testkey -- sh -c 'ls'
备份
$ etcdctl backup --data-dir /var/lib/etcd  --backup-dir /home/etcd_backup
选项:
--data-dir  etcd的数据目录
--backup-dir 备份到指定路径
member
通过list、add、remove命令列出、添加、删除etcd实例到etcd集群中。
查看集群中存在的节点
$ etcdctl member list
删除集群中存在的节点
$ etcdctl member remove 8e9e05c52164694d
向集群中新加节点
$ etcdctl member add etcd3 http://192.168.1.100:2380

etcd 默认只保存 1000 个历史事件,所以不适合有大量更新操作的场景,这样会导致数据的丢失。etcd 典型的应用场景是配置管理和服务发现,这些场景都是读多写少的。