kafka消息确认机制ack报错 kafka消息失效时间

转载

蓝月亮 2024-03-16 09:49:04

文章标签 kafka消息确认机制ack报错 kafka 消息数据 Group 文章分类 架构后端开发

从消息上来说

topic
生产者生产的消息时按照主题来分类的

partition
生产者为每一个主题生产的消息又被划分为不同的分区
为什么要分区?(提高消息消费的并行度)

replica：
每一个分区的数据都有N个副本,提高message数据的安全性,可靠性
为什么要存副本? 防止数据丢失

Leader

每个partition有多个副本，其中有且仅有一个作为Leader，Leader是当前负责数据的读写。

Follower
同步leader写的数据.

ISR
现存活的副本数

Segment

partition 物理上由多个 segment 组成，每个 Segment 存着 message 信息。

Offset

kafka的存储文件都是按照offset.log来命名，用offset做名字的好处是方便查找。例如你想找位于2049的位置，只要找到2048.log的文件即可。当然the first offset就是00000000000.log

架构

通常，一个典型的Kafka集群中包含
1 若干Producer（可以是web前端产生的Page View，或者是服务器日志，系统CPU、Memory等），
2若干broker（Kafka支持水平扩展，一般broker数量越多，集群吞吐率越高），
3若干Consumer Group，
4一个Zookeeper集群。
Kafka通过Zookeeper管理集群配置，选举leader，以及在Consumer Group发生变化时进行rebalance。
5 Producer使用push模式将消息发布到broker，Consumer使用pull模式从broker订阅并消费消息。

kafka消息确认机制ack报错 kafka消息失效时间_kafka

kafka的分布式模型

1 一个主题的消息是分不同分区的
2 每一个分区的数据有多个副本,副本存在不同的机器
3 副本中之一为leader负责数据读写,其他作为备胎同步leader的数据
4 如果leader挂掉,follower中的某一个会选举成为new leader,(体现了kafka的去中心化)
5 消息的分区数决定了消费的并行度

kafka分区

为什么要分区?
kafka可以将一个topic的消息分目录来管理.
分区本质上就是分目录

分区有如下好处

方便集群扩展
多个生产者key向同一个topic的不同分区同时写数据,做到并发
读数据也可以并发

分区策略

如何分区?

假设有3个broker,4个分区,不考虑副本的情况下

算法 分区数 mod broker数

kafka消息确认机制ack报错 kafka消息失效时间_消息_02

副本分配策略

(分区号+副本编号) mod broker数目

负载均衡

消息分配策略

所谓消息分配策略,就是消生产者发送消息时,消息要进入哪个分区.有这么几种情况

发送消息的时候指定分区,就是你说放哪个分区就放在哪个分区
如果不指定分区,但是发送的消息有key,那么会依据key的hash来选择分区
如果不指定分区,还没有key,那就通过轮询算法来确定分区

确定分区本质上是确定消息进入hdfs哪个目录上保存!

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：三个独立的索引查的时候用哪个单个索引和联合索引

下一篇：golang string 到 bytes 转化性能 golang struct转byte

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯