java的kafka生产者发送key值 kafka生产者发送数据

转载

mob64ca1403c772 2024-01-17 08:28:57

文章标签 java的kafka生产者发送key值序列化消息发送缓存 文章分类 Java 后端开发

Kafka生产者

生产者

消息发送

数据生产流程解析
必要参数配置

原理剖析
生产者参数配置补充
总结

生产者

消息发送

数据生产流程解析

java的kafka生产者发送key值 kafka生产者发送数据_缓存

Producer创建时，会创建一个Sender线程并设置为守护线程。
生产消息时，内部其实是异步流程；生产的消息先经过拦截器->序列化器->分区器，然后将消息缓存在缓冲区（该缓冲区也是在Producer创建时创建）。
批次发送的条件为：缓冲区数据大小达到batch.size或者linger.ms达到上限，哪个先达到就算哪个。
批次发送后，发往指定分区，然后落盘到broker；如果生产者配置了retrires参数大于0并且失败原因允许重试，那么客户端内部会对该消息进行重试。
落盘到broker成功，返回生产元数据给生产者。
元数据返回有两种方式：一种是通过阻塞直接返回，另一种是通过回调返回。

必要参数配置

broker配置

配置参数：

java的kafka生产者发送key值 kafka生产者发送数据_java的kafka生产者发送key值_02

序列化器

java的kafka生产者发送key值 kafka生产者发送数据_缓存_03

由于Kafka中的数据都是字节数组，在将消息发送到Kafka之前需要先将数据序列化为字节数组。序列化器的作用就是用于序列化要发送的消息的。分区器

java的kafka生产者发送key值 kafka生产者发送数据_缓存_04

默认（DefaultPartitioner）分区计算：

如果record提供了分区号，则使用record提供的分区号
如果record没有提供分区号，则使用key的序列化后的值的hash值对分区数量取模
如果record没有提供分区号，也没有提供key，则使用轮询的方式分配分区号。

会首先在可用的分区中分配分区号
如果没有可用的分区，则在该主题所有分区中分配分区号。

如果要自定义分区器，则需要

首先开发Partitioner接口的实现类
在KafkaProducer中进行设置：configs.put(“partitioner.class”, “xxx.xx.Xxx.class”)

拦截器

java的kafka生产者发送key值 kafka生产者发送数据_序列化_05

Producer拦截器（interceptor）和Consumer端Interceptor是在Kafka 0.10版本被引入的，主要用于实现Client端的定制化控制逻辑。

对于Producer而言，Interceptor使得用户在消息发送前以及Producer回调逻辑前有机会对消息做一些定制化需求，比如修改消息等。同时，Producer允许用户指定多个Interceptor按序作用于同一条消息从而形成一个拦截链(interceptor chain)。Intercetpor的实现接口是

org.apache.kafka.clients.producer.ProducerInterceptor，其定义的方法包括：

onSend(ProducerRecord)：该方法封装进KafkaProducer.send方法中，即运行在用户主线程中。Producer确保在消息被序列化以计算分区前调用该方法。用户可以在该方法中对消息做任何操作，但最好保证不要修改消息所属的topic和分区，否则会影响目标分区的计算。
onAcknowledgement(RecordMetadata, Exception)：该方法会在消息被应答之前或消息发送失败时调用，并且通常都是在Producer回调逻辑触发之前。onAcknowledgement运行在Producer的IO线程中，因此不要在该方法中放入很重逻辑，否则会拖慢Producer的消息发送效率。
close：关闭Interceptor，主要用于执行一些资源清理工作。

如前所述，Interceptor可能被运行在多个线程中，因此在具体实现时用户需要自行确保线程安全。
另外倘若指定了多个Interceptor，则Producer将按照指定顺序调用它们，并仅仅是捕获每个Interceptor可能抛出的异常记录到错误日志中而非在向上传递。这在使用过程中要特别留意。
自定义拦截器：

实现ProducerInterceptor接口
在KafkaProducer的设置中设置自定义的拦截器

原理剖析

java的kafka生产者发送key值 kafka生产者发送数据_序列化_06

由上图可以看出：KafkaProducer有两个基本线程：

主线程：负责消息创建，拦截器，序列化器，分区器等操作，并将消息追加到消息收集器RecoderAccumulator中；

消息收集器RecoderAccumulator为每个分区都维护了一个Deque 类型的双端队列。
ProducerBatch 可以理解为是 ProducerRecord 的集合，批量发送有利于提升吞吐量，降低网络影响；
由于生产者客户端使用 java.io.ByteBuffer 在发送消息之前进行消息保存，并维护了
一个 BufferPool 实现 ByteBuffer 的复用；该缓存池只针对特定大小（ batch.size指定）的 ByteBuffer进行管理，对于消息过大的缓存，不能做到重复利用。
每次追加一条ProducerRecord消息，会寻找/新建对应的双端队列，从其尾部获取一个ProducerBatch，判断当前消息的大小是否可以写入该批次中。若可以写入则写入；若不可以写入，则新建一个ProducerBatch，判断该消息大小是否超过客户端参数配置 batch.size 的值，不超过，则以 batch.size建立新的ProducerBatch，这样方便进行缓存重复利用；若超过，则以计算的消息大小建立对应的 ProducerBatch ，缺点就是该内存不能被复用了。

Sender线程：

该线程从消息收集器获取缓存的消息，将其处理为 <Node, List 的形式， Node 表示集群的broker节点。
进一步将<Node, List转化为<Node, Request>形式，此时才可以向服务端发送数据。
在发送之前，Sender线程将消息以 Map<NodeId, Deque> 的形式保存到InFlightRequests 中进行缓存，可以通过其获取 leastLoadedNode ,即当前Node中负载压力最小的一个，以实现消息的尽快发出