bin\windows\kafka-console-producer.bat --broker-list localhost:9092 --topic test

bin\windows\kafka-console-consumer.bat --bootstrap-server localhost:9092 --topic test --from-beginning

topic 是逻辑上的概念，而 partition 是物理上的概念。 每个 partition 对应于一个 log 文件，该 log 文件中存储的就是 producer 生产的数据。（topic = N partition，partition = log）

Producer 生产的数据会被不断追加到该log 文件末端，且每条数据都有自己的 offset。 consumer组中的每个consumer，都会实时记录自己消费到了哪个 offset，以便出错恢复时，从上次的位置继续消费。（producer -> log with offset -> consumer(s)）

3.1.2、文件存储机制

3.1 Kafka 工作流程及文件存储机制_kafka_03

由于生产者生产的消息会不断追加到 log 文件末尾，为防止 log 文件过大导致数据定位效率低下， Kafka 采取了分片和索引机制，将每个 partition 分为多个 segment。

每个 segment对应两个文件“.index”文件和“.log”文件。这些文件位于一个文件夹下，该文件夹的命名规则为： topic 名称+分区序号。例如， first 这个 topic 有三个分区，则其对应的文件夹为 first-0,first-1,first-2。

00000000000000000000.index
00000000000000000000.log
00000000000000170410.index
00000000000000170410.log
00000000000000239430.index
00000000000000239430.log

index 和 log 文件以当前 segment 的第一条消息的 offset（偏移量）命名。下图为 index 文件和 log文件的结构示意图。

index 文件和 log文件详解：

3.1 Kafka 工作流程及文件存储机制_kafka文件存储机制_04

“.index”文件存储大量的索引信息，“.log”文件存储大量的数据，索引文件中的元数据指向对应数据文件中 message 的物理偏移地址。

值得注意的是：.index文件是很大的，并且其中的每一条数据的大小都是一样的（如上图所示，左边存放的是消息索引值；右边对应的是消息真实的物理偏移地址，还有消息的内存大小），这样的好处是：有利于快速定位。例如上述寻找offet=3的message，先通过二分法寻找索引存放在哪个segment中，然后（假设每条数据的大小为1k），3*1k，得到索引信息，进而找到message具体的信息。