进阶篇 RocketMQ 原理之消息消费


遇到困难时不要抱怨,既然改变不了过去,那么就努力改变未来



获取消息方式

消费者从Broker中获取消息的方式有两种:pull拉取方式和push推动方式

拉取式消费【pull】

Consumer主动从Broker中拉取消息,主动权由Consumer控制。一旦获取了批量消息,就会启动消费过程。不过,该方式的实时性较弱,即Broker中有了新的消息时消费者并不能及时发现并消费

由于拉取时间间隔是由用户指定的,所以在设置该间隔时需要注意平稳:间隔太短,空请求比例会增加;间隔太长,消息的实时性太差

推送式消费【push】

该模式下Broker收到数据后会主动推送给Consumer。该获取方式一般实时性较高

该获取方式是典型的发布-订阅模式,即Consumer向其关联的Queue注册了监听器,一旦发现有新的消息到来就会触发回调的执行,回调方法是Consumer去Queue中拉取消息。而这些都是基于Consumer与Broker间的长连接的。长连接的维护是需要消耗系统资源的


消费消息模式

消费者组对于消息消费的模式又分为两种:集群消费Clustering广播消费Broadcasting

广播消费

什么是广播消费

广播模式就是消费者组中的每个消费者consumer都会消费所有的主题Topic下的信息,比如Topic下有10条消息,消费者组中有10个消费者,那么每个消费者都会消费10条消息

消费进度

消费进度保存在consumer端。因为广播模式下consumer group中每个consumer都会消费所有消息,但它们的消费进度是不同。所以consumer各自保存各自的消费进度

集群消费

什么是集群消费

集群消费就是Topic下的所有消息是消费者组中的每个consumer平均消费的,比如Topic下有10条消息,消费者组中有10个消费者,那么这10条消息会被平均分配,就是每个消费者只会消费一条消息

消费进度

消费进度保存在broker中。consumer group中的所有consumer共同消费同一个Topic中的消息,同一条消息只会被消费一次。消费进度会参与到了消费的负载均衡中,故消费进度是需要共享的,broker中的消费进度放在了store/config/consumeOffset.json中了

进阶篇 RocketMQ 原理之消息消费_RocketMQ

图中展示的就是TopicTest主题中4个队列分别消费了500条信息

Rebalance机制

Rebalance机制讨论的前提是:集群消费

什么是Rebalance

Rebalance即再均衡,指的是,将⼀个Topic下的多个Queue在同⼀个Consumer Group中的多个Consumer间进行重新分配的过程

举例

Rebalance机制的本意是为了提升消息的并行消费能力。例如,⼀个Topic下5个队列,在只有1个消费者的情况下,这个消费者将负责消费这5个队列的消息。如果此时我们增加⼀个消费者,那么就可以给其中⼀个消费者分配2个队列,给另⼀个分配3个队列,从而提升消息的并行消费能力。

进阶篇 RocketMQ 原理之消息消费_一致性hash_02

Rebalance限制

因为一个队列只会分配给一个消费者,那么消费者组中的消费者数量如果大于主题中队列的数量,那么多余的消费者会空闲什么都不做

Rebalance问题

1. 消费暂停【有点像stw jvm垃圾回收】

在只有一个Consumer时,其负责消费所有队列;在新增了一个Consumer后会触发Rebalance的发生。此时原Consumer就需要暂停部分队列的消费,等到这些队列分配给新的Consumer后,这些暂停消费的队列才能继续被消费

2. 消费重复

Consumer 在消费新分配给自己的队列时,必须接着之前Consumer 提交的消费进度的offset继续消费。然而默认情况下,offset是异步提交的,这个异步性导致提交到Broker的offset与Consumer实际消费的消息并不一致。这个不一致的差值就是可能会重复消费的消息

  1. 同步提交

consumer提交了其消费完毕的一批消息的offset给broker后,需要等待broker的成功ACK。当收到ACK后,consumer才会继续获取并消费下一批消息。在等待ACK期间consumer是阻塞的

  1. 异步提交

consumer提交了其消费完毕的一批消息的offset给broker后,不需要等待broker的成功ACK。consumer可以直接获取并消费下一批消息

注意:

对于一次性读取消息的数量,需要根据具体业务场景选择一个相对均衡的是很有必要的。因为数量过大,系统性能提升了,但产生重复消费的消息数量可能会增加;数量过小,系统性能会下降,但被重复消费的消息数量可能会减少

3. 消费突刺

产生的两点原因:

  1. 由于Rebalance可能导致重复消费,如果需要重复消费的消息过多
  2. 或者因为Rebalance暂停时间过长从而导致积压了部分消息

以上两种原因在Rebalance结束之后可能瞬间需要消费很多消息

Relalance产生的原因

  1. 消费者所订阅Topic的Queue数量发生变化

产生的场景:

  1. Broker扩容或缩容
  2. Broker升级运维
  3. Broker与NameServer间的网络异常
  4. Queue扩容或缩容
  5. 消费者组中消 费者的数量发生变化

以上两种情况都会进行Rebalance进行重新分配

产生的场景:

  1. Consumer Group扩容或缩容
  2. Consumer升级运维
  3. Consumer与NameServer间网络异常

Rebalance过程

在Broker中维护着多个Map集合,这些集合中动态存放着当前Topic中Queue的信息、Consumer Group中Consumer实例的信息。一旦发现消费者所订阅的Queue数量发生变化,或消费者组中消费者的数量发生变化,立即向Consumer Group中的每个实例发出Rebalance通知,Consumer实例在接收到通知后会采用Queue分配算法自己获取到相应的Queue,即由Consumer实例自主进行Rebalance

Queue分配算法

一个Topic中的Queue只能由Consumer Group中的一个Consumer进行消费,而一个Consumer可以同时消费多个Queue中的消息。那么Queue与Consumer间的配对关系是如何确定的,即Queue要分配给哪个Consumer进行消费,也是有算法策略的。常见的有四种策略:

1. 平均分配策略【默认】

该算法是要根据avg = 队列数量/消费者数量计算结果进行分配的。如果能够整除,则按顺序将avg个Queue逐个分配Consumer;如果不能整除,则将多余出的Queue按照Consumer顺序逐个分配。

先计算好每个Consumer应该分得几个Queue,然后再依次将这些数量的Queue逐个分配个Consumer

进阶篇 RocketMQ 原理之消息消费_推送_03

2. 环形平均策略

环形平均算法是指,根据消费者的顺序,依次在由queue队列组成的环形图中逐个分配,该算法不用事先计算每个Consumer需要分配几个Queue,直接一个一个分即可

进阶篇 RocketMQ 原理之消息消费_长连接_04

3. 一致性hash策略

该算法会将consumer的hash值作为Node节点存放到hash环上,然后将queue的hash值也放到hash环上,通过顺时针方向,距离queue最近的那个consumer就是该queue要分配的consumer,该算法存在的问题:分配不均。


进阶篇 RocketMQ 原理之消息消费_RocketMQ_05

4. 同机房策略

该算法会根据queue的部署机房位置和consumer的位置,过滤出当前consumer相同机房的queue。然后按照平均分配策略或环形平均策略对同机房queue进行分配。如果没有同机房queue,则按照平均分配策略或环形平均策略对所有queue进行分配

进阶篇 RocketMQ 原理之消息消费_分布式_06

四种算法对比

  1. 一致性hash算法存在的问题:复杂、结果也很大可能上存在不平均的情况
  2. 环形分配与平均分配策略的分配效率较高

那么一致性hash算法出现的意义是什么:其可以有效减少由于消费者组扩容或缩容所带来的大量的Rebalance

例如,平均分配算法rebalance时候

进阶篇 RocketMQ 原理之消息消费_RocketMQ_07

一致性hash算法rebalance的时候

进阶篇 RocketMQ 原理之消息消费_长连接_08

一致性Hash算法出现的场景是频繁出现rebalance的场景,例如消费者频繁变动的情况

至少一次原则

RocketMQ有一个原则:每条消息必须要被成功消费一次

什么是成功消费

Consumer在消费完消息后会向其消费进度记录器提交其消费消息的offset,offset被成功记录到记录器中,那么这条消费就被成功消费了

什么是消费进度记录器

  1. 对于广播消费模式来说,Consumer本身就是消费进度记录器,因为offset维护在自己本地
  2. 对于集群消费模式来说,Broker是消费进度记录器,因为offset维护在Broker中