kafka基本概念
kafka
是一个分布式,分区的消息服务。
名称 | 解释 |
broker | 消息中间件处理节点,一个Kafka节点就是一个broker,一个或者多个Broker可以组成一个Kafka集群 |
topic | Kafka根据topic对消息进行归类,发布到Kafka集群的每条消息都需要指定一个topic |
producer | 消息生产者,向Broker发送消息的客户端 |
Consumer | 消息消费者,从Broker读取消息的客户端 |
ConsumerGroup | 每个Consumer属于一个特定的Consumer Group,一条消息可以被多个不同的Consumer Group消费,但是一个Consumer Group中只能有一个Consumer能够消费该消息 |
Partition | 物理上的概念,一个topic可以分为多个partition,每个partition内部消息是有序的 |
kafka设计原理
kafka核心总控制器Controller
在kafka
集群中会有一个或者多个broker
,其中又一个broker
会被选举为总控制器(kafka controller)
,它负责管理整个集群中所有分区和副本的状态。
- 当某个分区的
leader
副本出现故障时,由控制器负责为该分区选举新的leader
副本。 - 当检测到某个分区的
ISR
集合发生变化时,由控制器负责通知所有broker
更新其元数据信息。 - 当使用
kafka-topics.sh
脚本为某个topic
增加分区数量时,同样还是由控制器负责让新分区被其他节点感知到。
controller选举机制
在kafka
集群启动的时候,会自动选举一台broker
作为controller
来管理整个集群,选举的过程是集群中每个broker
都会尝试在zookeeper
上创建一个/controller
临时节点,zookeeper
会保证有且仅有一个broker
能创建成功,这个broker
就会成为集群的总控器controller
。
当这个controller
角色的broker
宕机了,此时zookeeper
临时节点会消失,集群里其他broker
会一直监听这个临时节点,发现临时节点消失了,就竞争再次创建临时节点,就是我们上面说的选举机制,zookeeper
又会保证有一个broker
成为新的controller
。 具备控制器身份的broker需要比其他普通的broker多一份职责,具体细节如下:
- 监听broker相关的变化。为
Zookeeper
中的/brokers/ids/
节点添加BrokerChangeListener
,用来处理broker
增减的变化。 - 监听topic相关的变化。为
Zookeeper
中的/brokers/topics
节点添加TopicChangeListener
,用来处理topic
增减的变化;为Zookeeper
中的/admin/delete_topics
节点添加TopicDeletionListener
,用来处理删除topic
的动作。 - 从
Zookeeper
中读取获取当前所有与topic、partition
以及broker
有关的信息并进行相应的管理。对于所有topic
所对应的Zookeeper中的/brokers/topics/[topic]
节点添加PartitionModificationsListener
,用来监听topic中的分区分配变化。 - 更新集群的元数据信息,同步到其他普通的
broker
节点中。
Partition副本选举Leader机制
controller
感知到分区leader
所在的broker
挂了(controller
监听了很多zk节点可以感知到broker
存活),controller
会从ISR
列表(参数unclean.leader.election.enable=false
的前提下)里挑第一个broker
作为leader
(第一个broker
最先放进ISR
列表,可能是同步数据最多的副本),如果参数unclean.leader.election.enable
为true
,代表在ISR
列表里所有副本都挂了的时候可以在ISR
列表以外的副本中选leader
,这种设置,可以提高可用性,但是选出的新leader
有可能数据少很多。
副本进入ISR
列表有两个条件:
- 副本节点不能产生分区,必须能与
zookeeper
保持会话以及跟leader
副本网络连通 - 副本能复制
leader
上的所有写操作,并且不能落后太多。(与leader
副本同步滞后的副本,是由replica.lag.time.max.ms
配置决定的,超过这个时间都没有跟leader同步过的一次的副本会被移出ISR
列表)
消费者消费消息的offset记录机制
每个consumer
会定期将自己消费分区的offset
提交给kafka
内部topic:__consumer_offsets
,提交过去的时候,key
是consumerGroupId+topic+分区号
,value
就是当前offset
的值,kafka
会定期清理topic
里的消息,最后就保留最新的那条数据,因为__consumer_offsets
可能会接收高并发的请求,kafka
默认给其分配50个分区(可以通过offsets.topic.num.partitions
设置),这样可以通过加机器的方式抗大并发。通过如下公式可以选出consumer
消费的offset
要提交到__consumer_offsets
的哪个分区。
公式:hash(consumerGroupId) % __consumer_offsets主题的分区数
。
消费者Rebalance机制
rebalance
就是说如果消费组里的消费者数量有变化或消费的分区数有变化,kafka
会重新分配消费者消费分区的关系。比如consumer group
中某个消费者挂了,此时会自动把分配给他的分区交给其他的消费者,如果他又重启了,那么又会把一些分区重新交还给他。
注意:rebalance
只针对subscribe
这种不指定分区消费的情况,如果通过assign
这种消费方式指定了分区,kafka
不会进行rebanlance
。
如下情况可能会触发消费者rebalance
:
- 消费组里的
consumer
增加或减少了; - 动态给
topic
增加了分区; - 消费组订阅了更多的
topic
;
rebalance
过程中,消费者无法从kafka
消费消息,这对kafka
的TPS
会有影响,如果kafka
集群内节点较多,比如数百个,那重平衡可能会耗时极多,所以应尽量避免在系统高峰期的重平衡发生。
消费者Rebalance分区分配策略
主要有三种rebalance
的策略:range、round-robin、sticky
。Kafka
提供了消费者客户端参数partition.assignment.strategy
来设置消费者与订阅主题之间的分区分配策略。默认情况为range分配策略。
假设一个主题有10个分区(0-9),现在有三个consumer消费:
- range策略就是按照分区序号排序,假设
n=分区数/消费者数量 = 3, m=分区数%消费者数量 = 1,那么前 m 个消费者每个分配 n+1 个分区,后面的(消费者数量-m )个消费者每个分配 n 个分区
。比如分区0~3
给一个consumer,分区4~6
给一个consumer,分区7~9
给一个consumer。 - round-robin策略就是轮询分配,比如分区
0、3、6、9
给一个consumer,分区1、4、7
给一个consumer,分区2、5、8
给一个consumer - sticky策略初始时分配策略与
round-robin
类似,但是在rebalance
的时候,需要保证如下两个原则:
1)分区的分配要尽可能均匀 。
2)分区的分配尽可能与上次分配的保持相同。
当两者发生冲突时,第一个目标优先于第二个目标 。这样可以最大程度维持原来的分区分配的策略。
比如对于第一种range情况的分配,如果第三个consumer挂了,那么重新用sticky策略分配的结果如下:
consumer1除了原有的0~3
,会再分配一个7
consumer2除了原有的4~6
,会再分配8和9
Rebalance过程
第一阶段:选择组协调器:
组协调器GroupCoordinator:每个consumer group
都会选择一个broker
作为自己的组协调器coordinator
,负责监控这个消费组里的所有消费者的心跳,以及判断是否宕机,然后开启消费者rebalance
。consumer group
中的每个consumer
启动时会向kafka
集群中的某个节点发送 FindCoordinatorRequest
请求来查找对应的组协调器GroupCoordinator
,并跟其建立网络连接。
组协调器选择方式:consumer
消费的offset
要提交到__consumer_offsets
的哪个分区,这个分区leader
对应的broker
就是这个consumer group
的coordinator
。
第二阶段:加入消费组JOIN GROUP:
在成功找到消费组所对应的 GroupCoordinator
之后就进入加入消费组的阶段,在此阶段的消费者会向 GroupCoordinator
发送 JoinGroupRequest
请求,并处理响应。然后GroupCoordinator
从一个consumer group
中选择第一个加入group
的consumer
作为leader
(消费组协调器),把consumer group
情况发送给这个leader
,接着这个leader
会负责制定分区方案。
第三阶段( SYNC GROUP)consumer leader
通过给GroupCoordinator
发送SyncGroupRequest
,接着GroupCoordinator
就把分区方案下发给各个consumer
,他们会根据指定分区的leader broker
进行网络连接以及消息消费。
HW与LEO
HW
俗称高水位,HighWatermark
的缩写,取一个partition
对应的ISR
中最小的LEO(log-end-offset)
作为HW,consumer最多只能消费到HW所在的位置。另外每个replica都有HW,leader和follower各自负责更新自己的HW的状态。对于leader新写入的消息,consumer不能立刻消费,leader会等待该消息被所有ISR中的replicas同步后更新HW,此时消息才能被consumer消费。这样就保证了如果leader所在的broker失效,该消息仍然可以从新选举的leader中获取。对于来自内部broker的读取请求,没有HW的限制。
Kafka的复制机制既不是完全的同步复制,也不是单纯的异步复制。事实上,同步复制要求所有能工作的follower都复制完,这条消息才会被commit,这种复制方式极大的影响了吞吐率。而异步复制方式下,follower异步的从leader复制数据,数据只要被leader写入log就被认为已经commit,这种情况下如果follower都还没有复制完,落后于leader时,突然leader宕机,则会丢失数据。而Kafka的这种使用ISR的方式则很好的均衡了确保数据不丢失以及吞吐率。再回顾下消息发送端对发出消息持久化机制参数acks的设置,结合HW和LEO来看下acks=1的情况。