java Kafka日志异步处理 kafka的日志文件在哪

转载

mob6454cc6d81c9 2023-10-26 21:01:43

文章标签 java Kafka日志异步处理 kafka java 分布式偏移量 文章分类 Java 后端开发

对于一个分布式的流数据处理平台，消息存储在哪里是极为重要的。那么kafka的数据存储在哪里呢？

先说结论：

kafka放弃的Java的堆存储，改为使用磁盘（使用文件系统和操作系统的页缓存），同时将随机写改为顺序写，建立在文件追加的基础上，极大提高io性能。

首先要知道几个概念

Partition：每个主题又被分成一个或者若干个分区（Partition）。每个分区在本地磁盘上对应一个文件夹，分区命名规则为主题名称后接“—”连接符，之后再接分区编号，分区编号从0开始至分区总数减-1；

LogSegment：每个分区又被划分为多个日志分段（LogSegment）组成，日志段是Kafka日志对象分片的最小单位；LogSegment算是一个逻辑概念，对应一个具体的日志文件（“.log”的数据文件）和两个索引文件（“.index”和“.timeindex”，分别表示偏移量索引文件和消息时间戳索引文件）组成；（5）Offset：每个partition中都由一系列有序的、不可变的消息组成，这些消息被顺序地追加到partition中。每个消息都有一个连续的序列号称之为offset—偏移量，用于在partition内唯一标识消息（并不表示消息在磁盘上的物理位置）；

Message：消息是Kafka中存储的最小最基本的单位，即为一个commit log，由一个固定长度的消息头和一个可变长度的消息体组成；

每个分区（物理上是每个文件夹，里面有多个LogSegment，每个LogSegment都是由一个数据文件以及两个索引文件组成）

我们可以看一下分区文件夹里面得到内容示例：

java Kafka日志异步处理 kafka的日志文件在哪_分布式

Kafka中的消息存储在物理上是以一个或多个分区（Partition）构成，每个分区对应本地磁盘上的一个文件夹，每个文件夹内包含了日志索引文件（“.index”和“.timeindex”）和日志数据文件（“.log”）两部分

日志数据文件（.log）

实际保存生产者发送的数据文件。该文件以该段的基准偏移量左补齐0命名，文件后缀为“.log”。每一个message都有一个offset偏移量来唯一定位消息在分区的位置。这个偏移量是递增的。因此，一条消息就可以根据它自己的偏移量以及每一个log文件的起始offset以及最多存放多少消息，确定自己在哪一个log文件上。如图：

java Kafka日志异步处理 kafka的日志文件在哪_偏移量_02