前言
近日笔者碰到了这样的一个场景:
需要将并发操作时的待更新数据,传到一个消息队列,通过消息队列的顺序读写机制来实现序列化写入,从而避免数据库的并发update。
由于公司使用的消息中间件是kafka,项目基于springboot。因此采用spring-kafka来实现。
kafka对消息顺序性的保证
kafka的分区(partition)机制可以保证消息的顺序性。
下图是kafka官方文档的一小段描述:
kafka的topic可以发送到多个partition上。单个partition中存储的消息是有序的。而对于每个partition,kafka保证一个group同时只会有一个consumer在消费。
因此我们只要将topic发送至同一个分区,并且配置应用系统中的kafka消费者为单线程模式,即可保证消息的顺序性。但是这样就无法充分利用多个节点的性能,无法对kafka消息的处理进行负责均衡。
而在实际场景中,往往并不需要确保topic的消费完全有序。
很多时候,比如我本次的需求场景,只需要key值相同的topic被顺序消费。因此,我只要将相同的key发送至相同的partition中即可。这样相比于将所有的key都发送到同一个partition,有效的利用了多个partition,从而可以被多个节点消费,实现负载均衡。
spring-kakfa的分区负载均衡策略
spring-kafka的pruducer在发送的时候,是可以手动指定分区号的。但是一般情况下,我们推荐不指定。
spring-kafka提供了一个 Partitioner接口,它有一个默认的实现类DefaultPartitioner,它会从kafka broker上面拉取可用的分区列表,并使用一个负载均衡的策略,以期将topic平均的分配到各个partition上。
当指定了key的时候,DefaultPartitioner会对key会通过一个hash算法得到一个数字,并对分区数进行取余操作得到将要发送的分区号,因此相同的key会映射到相同的分区中。
如果没有指定key,则会进行负载均衡,随机的分发往不同的分区中。
用户也可以自己实现partition方法,编写自己的分区负载策略。
因此,本次我就使用了默认的策略,将业务主键id作为key,从而保证对于每个业务数据的更新操作顺序进行。