kafka默认拉取时间间隔 kafka timeindex

转载

漫步云端的猪 2024-04-01 11:03:13

文章标签 kafka默认拉取时间间隔 kafka 索引时间戳偏移量 文章分类 架构后端开发

kafka-之分段日志文件索引

0 前言

kafka的日志文件索引是用来快速检索日志的，在kafka中日志索引分为2种类,kafka中索引以稀疏索引的方式构建索引，它不保证每个消息在索引文件中都存在索引，每当写入一定数量log.index.interval.bytes default(4KB = 4096)的时候，偏移量索引以及时间戳索引各自创建一个对应的索引项，我们可以通过该参数调整索引的密度。通过MappedByteBuffer将索引文件映射到内存中。

偏移量索引

baseoffset.index文件

时间戳索引

baseoffset.timeindex文件

0.1 日志分段文件切分条件如下

当日志分段文件的大小超过log.segment.bytes=1073741824（1GB）时；
当日志分段中的最大时间戳与当前系统的差值大于log.roll.ms或log.roll.hours，默认只配置了log.roll.hours =168(7天),前者优先级高
偏移量索引文件或者时间戳索引文件大小超过brokerlog.index.size.max.bytes=10MB
新追加消息的offset-baseOffset > Integer.MAX_VALUE时，也就是相对位移过大，用Integer-4个字节存不下了。

1 偏移量索引

偏移量索引分为2个部分，总共占8个字节

具体的偏移量索引项如下图

kafka默认拉取时间间隔 kafka timeindex_kafka

relativeOffset（4B）

消息的相对偏移量，即offset - baseOffset,其中baseOffset为整个segmentLogFile的起始消息的offset。
平常的offset占用8个Byte，而ralativeOffset只需要占用4个Byte

position（4B）

物理地址，也就是日志在分段日志文件中的实际位置。

1.1 查看日志以及索引文件的方式

#以下2种方式都行
bin/kafka-run-class.sh kafka.tools.DumpLogSegments --files  /cxxxxxx.log
bin/kafka-dump-log.sh --files /xxxxx.index

>>>>>>
(base) bogon:topic1-0 shufang$ kafka-dump-log.sh --files 00000000000000000000.index 
Dumping 00000000000000000000.index
offset: 45 position: 4140  #代表团一个RecordBatch
offset: 90 position: 8266  #代表另一个RecordBatch