前言:kafka是个高吞吐的消息中间件,有着削峰填谷的作用。


最近在生产中,发现消费速度跟不上生产速度,很是好奇,kafka不是号称高吞吐吗?难道是kafka吐的太慢了?后来查了很多资料,总算弄清了点头绪。不是kafka的锅,是自己的消费者消费能力不行导致。

生产者一般不会有啥问题,因为是写进kafka,数据如果要处理的话,处理中的数据和kafka还没关系,等数据处理完要最终写入kafka了的时候,这时候才是kafka吞的时候,一般不会有什么问题。

而消费者经常会有问题,大部分时候不是kafka吐数据能力不行,而是自己写的消费数据的程序不行,这个消费能力会受到比较多的因素影响,比如消费了一条数据就要把这条数据发给第三方接口,或者要经过复杂的逻辑处理等。这样一条数据消费完了才能继续消费下条数据。所以说要向实现消费追上甚至超过生产能力的话,就要多线程消费,批量消费。

多线程消费:

既然一个线程消费不过来,那么就多开线程,开十个线程,消费能力就提高了10倍。但前提是,要消费的topic的partition数也要相应的提高到10(partition数的大小决定最大消费线程数)。

批量消费:

一次消费一批数据,然后在封装处理,总比一次消费一条数据来得快,但要注意,处理这一批数据的时间可能比处理一条数据的时间来的久,如果处理时间太久,超过了kafka的认定时间,kafka就会认为这个消费者挂了,从而踢掉重新分配一个消费者。处理方式可以是:1,一次不拉过多的数据。2,kafka认定消费者挂了的时间设置久点。