kafka参数 kafkaproducer参数

转载

西门吹雪 2024-03-28 06:43:31

文章标签 kafka参数 Kafka kafka 拦截器元数据 文章分类 架构后端开发

由于本人最近在学习 kafka，看了kafka 的源码解析以及厮大的深入理解 kafka 之后决定自己在源码 debug 更加深入的学习 kafka。

先从 producer 看起：

kafka参数 kafkaproducer参数_kafka参数

运行 zookeeper，kafka server， producer 之后。在控制台随意输入一条消息进行 debug。

首先他会把消息封装成 ProducerRecord

kafka参数 kafkaproducer参数_拦截器_02

主要的6个参数：

headers：可以是多个 header 组成也可以为 null 也可以是单个 header。这个 header 会和 kafka 的幂等，事务有所关联

timestamp：如果没有指定的话，会默认使用System.currentTimeMillis()当前时间戳。

key：如果指定 key 的话会影响到 log compression 以及分区

value：具体的消息内容

topic：主题

partition：分区之后通过 KafkaProducer 发送消息：

kafka参数 kafkaproducer参数_Kafka_03

1.首先如果你经过的是拦截器。默认是没有拦截器的，可以自己实现拦截器实现ProducerInterceptor 接口即可。

kafka参数 kafkaproducer参数_拦截器_04

其中有两个方法

kafka参数 kafkaproducer参数_拦截器_05

kafka参数 kafkaproducer参数_kafka参数_06

在 onSend 中可以进行自己的业务逻辑，onAcknowledgement 可以对 ack 响应进行预处理，这个方法是最先获取从服务端获取的 response。

kafka参数 kafkaproducer参数_kafka_07

之后 producer 调用了 doSend 方法

kafka参数 kafkaproducer参数_元数据_08

kafka参数 kafkaproducer参数_kafka参数_09

kafka参数 kafkaproducer参数_kafka参数_10

该方法的整体流程：

2.首先根据 topic，partition，maxBlcokTimeMs(等待更新 kafka 元数据的最长时间默认60000ms)在 waitOnMetadata方法中获取该 topic 的元数据如果集群中没有该topic 那就会添加，通过partitionCountForTopic(topic)获取该 topic 下的分区数。如果有如果有缓存的元数据，并且记录的分区没有定义，则返回缓存的元数据。

返回元数据以及等待时间：

kafka参数 kafkaproducer参数_kafka参数_11

kafka参数 kafkaproducer参数_kafka参数_12

kafka参数 kafkaproducer参数_kafka_13

3.然后对key以及 value 进行序列化。这里也是可以自定义序列化只要实现 Serializer 和 Deserializer 即可

kafka参数 kafkaproducer参数_kafka参数_14

4.下一步操作就是选择消息的分区，优先根据 ProducerRecord 指定的分区，如果没有则通过partitioner.partition 方法进行分区

kafka参数 kafkaproducer参数_Kafka_15

kafka参数 kafkaproducer参数_kafka参数_16

具体的分区策略：

kafka参数 kafkaproducer参数_kafka参数_17

首先根据 topic 找出该 topic 下的所有 partitions 的数量

keyBytes 是 producerRecord 中的 key序列化之后的值，所以说如果指定 key 是会对分区造成影响

如果有 key 会对 key 进行 hash(murmur2这种hash 的方式) 然后跟分区数量进行取模

如果没有key且可用分区大于0的话：通过随机数和可用分区进行取模 nextValue 在上一次的 nextValue 不断+1

如果没有key且可用分区小于0的话：通过随机数和分区进行取模 nextValue 在上一次的 nextValue 不断+1

5.然后通过计算出来的 partition 和 topic 封装成 TopicPartition 形成 topic-partition 的映射关系
6.预估这个 record 处理大小的上限值，没有考虑到压缩算法的开销
7.生产回调讲调用拦截器的回调，这就是为什么之前说可以在onAcknowledgement做预处理
8.判断是否开启事务
9.把TopicPartition，时间戳，序列化 key，序列化值，请求头，拦截器回调，剩余等待时间预估一下需要处理的值放入 buffer 存入RecordAccumulator 中
10.如果batch已经满了或者创建了新的batch 唤醒 sender 所以说 KafkaProducer 它不会对消息进行发送，而且将消息进行处理存入RecordAccumulator 中，有 sender 线程进行发送数据。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。