统计kafka topic数据量统计kafka主题中的数据量

转载

mob6454cc6e409f 2024-04-04 11:40:53

文章标签 统计kafka topic数据量服务器偏移量数据 文章分类 架构后端开发

1.简介
kafka是Apache开发的一种分布式的发布-订阅消息系统。特点有以下2点

快速:每秒可以生产25万条消息(50MB)，处理55万条数据(110MB)。
持久化存储数据:并可以在集群中复制，防止数据丢失。

2.基本术语

主题(Topic):一组消息的归纳。一个Kafka集群中可以创建多个主题，以主题为单位来管理消息，主题之间互相隔离，互不影响。
消息:由一个key，一个value和时间戳构成。
分区(Partition):主题中还可以划分出多个分区，以分区为单位对主题中的数据进行存储和备份。
segment:分区内会被划分为多个大小相等的segment，segment中.log文件用来存放数据分段，.index用来存放索引信息。
序号(Offset):分区中每个消息都有的一个连续的序列号，用来唯一标识这个消息。
副本(Replication):每个分区都可以有多个副本，分布式存储在不同的服务器中，共同处理请求提升性能，保证了Kafka的容错能力。多个副本中会有一个leader和多个follower，follower只对外提供读能力。
主题生产者(Kafka topic producer):发布消息的对象。
主题消费者(Consumers):订阅消息并处理消息的对象称。
集群:已发布的消息保存在一组服务器中，称之为Kafka集群。集群中的每一个服务器都是一个代理(Broker)。消费者可以订阅一个或多个主题(Topic)，并从Broker拉数据，从而消费这些已发布的消息。

3.四个核心API

应用程序使用Producer API发布消息到1个或多个topic。
应用程序使用Consumer API来订阅一个或多个topic，并处理产生的消息。
应用程序使用Streams API充当一个流处理器，从1个或多个topic消费输入流，并生产一个输出流到1个或多个输出topic，有效地将输入流转换到输出流。
Connector API允许构建或运行可重复使用的生产者或消费者，将topic连接到现有的应用程序或数据系统。例如，一个关系数据库的连接器可捕获每一个变化。

Client和Server之间的通讯，是通过一条简单、高性能并且和开发语言无关的TCP协议。并且该协议保持与老版本的兼容。Kafka提供了Java Client(客户端)。除了Java Client外，还有非常多的其它编程语言的Client。

4.主题和日志(Topic和Log)

对于每一个Topic，Kafka集群维护这一个分区的log，就像下图中的示例,每一个分区都是一个顺序的、不可变的消息队列，并且可以持续的添加。分区中的消息都被分了一个序列号，称之为偏移量(offset)，在每个分区中此偏移量都是唯一的。

统计kafka topic数据量统计kafka主题中的数据量_服务器

Kafka集群保持所有的消息，直到它们过期，无论消息是否被消费了。实际上消费者所持有的仅有的元数据就是这个偏移量，也就是消费者在这个log中的位置。这个偏移量由消费者控制：正常情况当消费者消费消息的时候，偏移量也线性的的增加。但是实际偏移量由消费者控制，消费者可以将偏移量重置为更老的一个偏移量，重新读取消息。可以看到这种设计对消费者来说操作自如，一个消费者的操作不会影响其它消费者对此log的处理。再说说分区。Kafka中采用分区的设计有几个目的。一是可以处理更多的消息，不受单台服务器的限制。Topic拥有多个分区意味着它可以不受限的处理更多的数据。第二，分区可以作为并行处理的单元。

统计kafka topic数据量统计kafka主题中的数据量_服务器_02

5.分布式(Distribution)

Log的分区被分布到集群中的多个服务器上。每个服务器处理它分到的分区。根据配置每个分区还可以复制到其它服务器作为备份容错。每个分区有一个leader，零或多个follower。Leader处理此分区的所有的读写请求，而follower被动的复制数据。如果leader宕机，其它的一个follower会被推举为新的leader。一台服务器可能同时是一个分区的leader，另一个分区的follower。这样可以平衡负载，避免所有的请求都只让一台或者某几台服务器处理。

6.Geo-Replication(异地数据同步技术)
Kafka MirrorMaker为群集提供geo-replication支持。借助MirrorMaker，消息可以跨多个数据中心或云区域进行复制。可以在active/passive场景中用于备份和恢复; 或者在active/passive方案中将数据置于更接近用户的位置，或数据本地化。

7.生产者(Producers)
生产者往某个Topic上发布消息。生产者也负责选择发布到Topic上的哪一个分区。最简单的方式从分区列表中轮流选择。也可以根据某种算法依照权重选择分区。开发者负责如何选择分区的算法。

8.消费者(Consumers)

通常来讲，消息模型可以分为两种，队列和发布-订阅式。队列的处理方式是一组消费者从服务器读取消息，一条消息只有其中的一个消费者来处理。在发布-订阅模型中，消息被广播给所有的消费者，接收到消息的消费者都可以处理此消息。Kafka为这两种模型提供了单一的消费者抽象模型: 消费者组(consumer group)。消费者用一个消费者组名标记自己。一个发布在Topic上消息被分发给此消费者组中的一个消费者。假如所有的消费者都在一个组中，那么这就变成了queue模型。假如所有的消费者都在不同的组中，那么就完全变成了发布-订阅模型。更通用的，我们可以创建一些消费者组作为逻辑上的订阅者。每个组包含数目不等的消费者，一个组内多个消费者可以用来扩展性能和容错。正如下图所示

统计kafka topic数据量统计kafka主题中的数据量_偏移量_03

2个kafka集群托管4个分区(P0-P3)，2个消费者组，消费组A有2个消费者实例，消费组B有4个。

正像传统的消息系统一样，Kafka保证消息的顺序不变。再详细扯几句。传统的队列模型保持消息，并且保证它们的先后顺序不变。但是，尽管服务器保证了消息的顺序，消息还是异步的发送给各个消费者，消费者收到消息的先后顺序不能保证了。这也意味着并行消费将不能保证消息的先后顺序。用过传统的消息系统的同学肯定清楚，消息的顺序处理很让人头痛。如果只让一个消费者处理消息，又违背了并行处理的初衷。在这一点上Kafka做的更好，尽管并没有完全解决上述问题。 Kafka采用了一种分而治之的策略:分区。因为Topic分区中消息只能由消费者组中的唯一一个消费者处理，所以消息肯定是按照先后顺序进行处理的。但是它也仅仅是保证Topic的一个分区顺序处理，不能保证跨分区的消息先后处理顺序。所以，如果你想要顺序的处理Topic的所有消息，那就只提供一个分区。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。