kafka logs文件下那些文件进行手动清理的

转载

bigrobin 2024-09-15 13:33:59

kafka logs文件下那些文件进行手动清理的_执行流程

如上图可见，Kafka日志对象由多个日志段对象组成，而每个日志段对象会在磁盘上创建一组文件，包括不止如下： - 消息日志文件（.log） - 位移索引文件（.index） - 时间戳索引文件（.timeindex） - 已中止（Aborted）事务的索引文件（.txnindex）

kafka logs文件下那些文件进行手动清理的_执行流程_02

若没有使用Kafka事务，已中止事务的索引文件不会被创建。图中的一串数字0是该日志段的起始位移值（Base Offset），即该日志段中所存的第一条消息的位移值。

一般一个Kafka主题有很多分区，每个分区就对应一个Log对象，在物理磁盘上则对应一个子目录。比如创建一个双分区的主题test-topic，那么，Kafka在磁盘上会创建两个子目录： 1. test-topic-0 2. test-topic-1

而在服务器端，这就是两个Log对象。每个子目录下存在多组日志段，即多组.log、.index、.timeindex文件组合，只不过文件名不同（因每个日志段的起始位移不同）

日志段是Kafka保存消息的最小载体。Kafka 的消息就是保存在日志段。

大面积日志段同时间切分，导致瞬时打满磁盘I/O带宽。最后在LogSegment的shouldRoll方法找到解决方案：设置Broker端参数log.roll.jitter.ms值大于0，即通过给日志段切分执行时间加一个扰动值的方式，来避免大量日志段在同一时刻执行切分动作，从而显著降低磁盘I/O。

所以，阅读源码很重要。 毕竟单纯查看官网对该参数的说明，不一定能够全面了解它的作用。

kafka logs文件下那些文件进行手动清理的_时间戳_03

kafka logs文件下那些文件进行手动清理的_kafka源码_04

主要关心前两者。

kafka logs文件下那些文件进行手动清理的_时间戳_05

读写日志是Kafka最常用的操作，而日志读取底层调用的就是日志段的这两个方法。

重点关注一下写操作过程中更新索引的时机是如何设定的。

kafka logs文件下那些文件进行手动清理的_子目录_06

kafka logs文件下那些文件进行手动清理的_kafka源码_07

kafka logs文件下那些文件进行手动清理的_执行流程_08

kafka logs文件下那些文件进行手动清理的_子目录_09

kafka logs文件下那些文件进行手动清理的_kafka源码_10

Broker 端提供有定期删除日志的功能。比如我只想保留最近 7 天日志，就是基于当前最大时间戳值。而最大时间戳对应的消息的偏移值则用于时间戳索引项。时间戳索引项保存时间戳与消息偏移的对应关系。该步骤中，Kafka更新并保存这组对应关系。

kafka logs文件下那些文件进行手动清理的_子目录_11

关注下Kafka计算待读取消息字节数的逻辑，也就是maxSize、maxPosition和startOffset是如何共同影响read方法的。 - 方法签名

kafka logs文件下那些文件进行手动清理的_时间戳_12

kafka logs文件下那些文件进行手动清理的_执行流程_13