如何避免kafka消息重复消费

原创

Ambition的后花园 2023-08-28 23:38:04 ©著作权

文章标签 标识符偏移量 apache kafka 重复消费 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者Ambition的后花园的原创作品，请联系作者获取转载授权，否则将追究法律责任

在 Kafka 中，为了避免消息重复消费，可以采取以下几种方法：

使用唯一的消息标识符：在生产者端，在发送消息时为每条消息生成一个全局唯一的标识符，并将该标识符作为消息的一部分发送到 Kafka。在消费者端，可以维护一个已消费消息的标识符集合，并在处理消息时检查标识符是否已存在于集合中，避免重复消费。
设置适当的消费者偏移量提交策略：Kafka 提供了不同的消费者偏移量提交策略，可以通过配置来指定。常见的策略有自动提交和手动提交。根据需求选择合适的提交策略，确保消息在处理完成后才提交偏移量。这样可以避免在消息处理失败时重复消费已处理的消息。
使用幂等性和事务：Kafka 从0.11版本开始引入了幂等性和事务机制。通过设置生产者的消息为幂等消息，可以保证相同的消息在被消费者重复消费时不会引起副作用。使用事务机制可以确保消息的原子性和一致性，避免重复消费和数据丢失。
消费者组管理：Kafka 允许多个消费者以消费者组的方式订阅主题。确保每个消费者组只有一个消费者实例消费相同的消息，避免重复处理相同消息。
设置合适的消息保留时间：Kafka 允许配置消息的保留时间，在消费者端设置适当的保留时间可以避免过期的消息被重复消费。
使用消息去重技术：在某些场景下，可以使用消息去重技术来避免消息的重复消费。例如，在消费者端使用缓存或数据库记录已处理的消息的唯一标识符，并在接收到新消息时进行对比，避免处理重复的消息。

1.使用唯一的消息标识符：

import org.apache.kafka.clients.consumer.ConsumerRecord;
import java.util.HashSet;
import java.util.Set;

public class KafkaConsumerExample {
    private Set<String> processedMessages = new HashSet<>();

    public void consumeMessages() {
        // 创建 Kafka 消费者并进行配置

        while (true) {
            // 从 Kafka 获取消息
            ConsumerRecord<String, String> record = consumer.poll(1000).iterator().next();
            String messageId = record.value(); // 假设消息中携带了全局唯一标识符

            if (!processedMessages.contains(messageId)) {
                // 处理消息的逻辑
                processMessage(record);

                // 将已处理的消息标识符添加到集合中
                processedMessages.add(messageId);
            }
            
            // 提交偏移量
            consumer.commitAsync();
        }
    }

    private void processMessage(ConsumerRecord<String, String> record) {
        // 实际的消息处理逻辑
    }
}

设置适当的消费者偏移量提交策略：

import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

import java.util.Collections;
import java.util.Properties;

public class KafkaConsumerExample {
    public void consumeMessages() {
        Properties props = new Properties();
        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ConsumerConfig.GROUP_ID_CONFIG, "my-consumer-group");
        props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "false"); // 关闭自动提交偏移量

        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Collections.singletonList("my-topic"));

        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(1000);
            for (ConsumerRecord<String, String> record : records) {
                try {
                    // 处理消息的逻辑
                    processMessage(record);

                    // 手动提交偏移量
                    consumer.commitSync();
                } catch (Exception e) {
                    // 处理异常情况
                    consumer.seek(record.topic(), record.partition(), record.offset() + 1); // 跳过当前消息，继续下一条消息的消费
                }
            }
        }
    }

    private void processMessage(ConsumerRecord<String, String> record) {
        // 实际的消息处理逻辑
    }
}