java kafka读取offset

关注 ganmaobuhaowan

文章目录

定义：
消息系统：
两种消息模式：
术语：
发布和订阅的流程
生产者：需要指定生产的主题
消费者：
kafka写消息的路由策略
kafka写硬盘：
kafka的消息安全策略
kafka的备份
Kafka的isr：
kafka的数据保存：
主题的创建和删除流程：

java kafka读取offset

转载

ganmaobuhaowan 2024-09-15 14:47:50

文章标签 java kafka读取offset 数据 kafka 偏移量 文章分类 Java 后端开发

定义：

大吞吐量，内置分区，可以进行数据备份，同时具备数据容错性的消息系统。

Kafka可以完成在线或者离线数据消费，所谓离线数据消费实际上就是kafka将消息数据保留在磁盘上。
kafka会做数据备份，防止节点宕机从而导致数据丢失。
和spark产品的整合性非常好，可以完成实时的大数据分析
kafka的节点可以无限扩容

消息系统：

将数据从一个应用程序传递到另一个应用程序，分布式系统利用消息系统，在多应用之间进行高效、稳定、安全的数据传递。

两种消息模式：

点对点：若干个生产和消费者，处理队列当中的数据，一旦该数据被消费，则从队列当中被移除。（多线程：生产消费者模型）
发布-订阅：消息是被保留在主题当中，消费者一个消费一个或者若干个主题当中的消息

术语：

术语1	术语2
Topics（主题）	Kafka Cluster（Kafka集群）
Partition（分区）	Producers（生产者）
Partition offset（分区偏移）	Consumers（消费者）
Replicas of partition（分区备份）	Leader（领导者）
Brokers（经纪人）	Follower（追随者）

发布和订阅的流程

生产者向主题当中提交消息，代理将主题当中的数据在主题的分区当中依次保存；
消费者向代理请求获取消息，代理向消费者提供偏移量，消费者根据偏移量要求获取消息。
消费者排队的前提，消费者数量大于分区数量

生产者：需要指定生产的主题

消费者：

要指定消费者的分组：默认情况下，分组是test
消费者可以同时消费若干个主题：

消息是已key-value格式进行发送
每个key如果重复发送，其偏移量会递增
新的key的偏移量从0开始

消费者要放在一个独立的线程当中，才能始终处于消费状态
Spring是没有办法直接给线程当中进行依赖注入的
消费者的线程如果要通知其他的任务执行，需要从Spring的bean当中获取相关的业务对象

kafka写消息的路由策略

如果指定分区：直接使用分区进行路由
指定了key，但是没有指定分区，那么会对key进行hash运算，通过运算的值得到一个分区
如果都没指定，那么会轮询写入一个分区

kafka写硬盘：

传统写硬盘是随机写
kafka是顺序写硬盘，是随机写硬盘速度的6000倍
写数据的流程

首先找到leader
将消息写入leader的日志文件
Followers(包含ISR中的成员，也包含不在ISR中的成员)会同步leader当中的消息，同步完以后会向leader发送一个ACK确认。
leader在接收到isr所有成员的ACK确认后，正式提交commit保存

kafka的消息安全策略

默认是保证一定成功（同步）
不重复发送，不保证成功（异步）

kafka的备份

备份是由分区来创建的
一个分区有1个leader和0-n个follower，只要leader不宕机，所有的follower都宕机了也不影响读写。follower只负责数据备份，不负责数据读写。

Kafka的isr：

同步备份：保证isr集合当中至少存活一个，如果leader不挂，正常提供服务，如果leader挂了，重新选leader然后提供服务；每个分区都有自己的isr

备份的算法：

分区：分区编号，取余代理数量（p_i mod b_num）
备份：分区编号 + 备份编号之和，取余代理数量（p_i+r_j） mod b_num

判定存活：配置延时replica.log.max.messages，replica.log.time.max.ms来判定是否宕机
kafka如何解决zookeeper的压力的

Kafka有容器机制
每一个代理会创建一个新的容器
容器负责维护leader的读写，和选举

leader是在zk上竞争创建节点来获取leader资格，如果leader宕机，选举策略是所有的follower（ISR当中保存的成员）重新竞争创建节点，获取leader资格；容器会记录新的leader，并保持
如果所有的ISR成员都死亡：

等待ISR成员任意一个苏醒，但是这个过程是不可控的
默认：只要有一个不是isr的成员存活，把这个作为新的leader。但是并不能保证这个成员是否数据和原本leader数据一致。

kafka的数据保存：

Kafka的日志分为两种，一种是运行日志；还有一种是用于保存消息的日志；
一个分区对应日志当中的一个目录

索引文件
数据文件

数据长度
数据类型
时间戳
偏移量
Key
Value
头信息

数据保留策略

时间：
大小：
注意：清理数据对kafka的读写没有任何影响
Kafka是在硬盘磁道上进行顺序读写，所以性能和文件大小没有任何关系

主题的创建和删除流程：

创建主题，是首先获取代理的ids，然后将这些ids组成一个isr，作为一个新的容器
删除主题：

默认情况下delete.topic.enable=false；也就是被删除的节点会被移入zk的这个节点/admin/delete_topics
要彻底删除

delete.topic.enable=true：一旦删除，容器会清空在/admin/delete_topics节点上的监听
auto.create.topics.enable=false：自动创建主题，如果他为true，那么只要还有一个用户在往这个主题当中写消息，这个主题就不会真正被删除。即便是你已经删了，他依然还会创建一个出来。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：Python基于Django验证码登录

下一篇：java多租户轻量级框架

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

ganmaobuhaowan

关注

职场话题

2024软考

华为认证

K8s

数据库

近期文章

文章目录

定义：
消息系统：
两种消息模式：
术语：
发布和订阅的流程
生产者：需要指定生产的主题
消费者：
kafka写消息的路由策略
kafka写硬盘：
kafka的消息安全策略
kafka的备份
Kafka的isr：
kafka的数据保存：
主题的创建和删除流程：

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册