导读:Kafka 是广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析不可或缺的工具。本篇为 Kafka 系列的第一篇文章,之后将会每天持续更新,让你从上手到实践。
作者 | 计缘
什么是MQ
首先我们来认知什么是MQ系统既消息队列(Message Queue)系统。举个不恰当的例子,消息(Message)就相当于自来水,队列(Queue)就相当于自来水管道,错综复杂的管道将自来水送给千家万户。在计算机领域,消息其实就是数据,各种格式的数据,队列就是运输数据的管道,通过各种运输策略将数据送达使用它们的地方。
消息生产者(Producer)
任何MQ系统都离不开消息生产者(后文中统一使用Producer),否则MQ系统也就没有了存在的意义。好比没有了水源,自来水管道也就没有意义了一样。MQ系统中的Producer既消息(数据)生产者,主要的作用就是生成数据,然后发送给MQ系统中的队列,通常情况下,消息生产者将生产出的消息丢给MQ系统的队列后通常就不再关心消息的去向了,所以它的职责主要就是生成数据,以及数据是否成功被队列接收。然后丢进队列。每个MQ系统都有自己的消息格式,以字节数组的形式在队列中传输。
消息主题(Topic)
消息主题指的是一类消息,相当于数据库中的表,或文件系统中的一个文件夹,是MQ系统中一切的基础。我们来引用《Kafka:The Definitive Guide》一书中的例图来举例:
图例展示的是一个独立的队列系统,图中的Metrics Pub/Sub,Logging Pub/Sub,Tracking Pub/Sub其实就是充当了Topic的作用,相当于对消息做了分类。
消息(Message)
MQ系统的内部数据单元一般称为消息(Message),消息类似数据库中的一行或一条记录。不同的MQ系统有不同的消息协议,这个消息协议的作用是为了让消息生产者和消息消费者都能够明白消息所承载的信息,既消息生产者需要知道如何构造消息,消息消费者需要知道如何解析消息,所以就需要有一种统一的格式来描述消息,这个描述消息的格式就是消息协议。
数据持久化(Data Persistent)
在使用MQ系统时,数据的健壮性和一致性是至关重要的。试想一下,如果消息生产者生产了消息并且发送走了,但是在同时消息消费者掉线了,那么这条消息就很有可能丢失了,再或者消息生产者生产了一个很大的文件,需要将其序列化后送入队列,那么在消息被消费的时候,应该将序列化后的数据反序列化,如果序列化后的数据有个别丢失,那么就会导致反序列后的信息是不一致的。
所以在MQ系统中,数据持久化就是用来避免上述情况发生的。通常数据持久化的方式有文件存储,数据库存储两大类,其中还有一些参杂各种缓存机制。对数据持久化的时机也不尽相同,有些是在消息生产者端持久化,有些是在队列中持久化,也有在消息消费者端做持久化。同时对应的重新消费消息的机制和策略也会不相同,比如有消息生产者重发,也有消息消费者重新拉取等。
消息消费者(Consumer)
消息消费者(后文中统一使用Consumer)顾名思义就是消息的使用者,通过订阅一个或多个不同的消息主题,获取到不同类别的消息进行使用。是整个MQ系统的最后一个环节。
小结
这一章节概括了什么是MQ系统,它应该具备哪些基本的功能,这些功能能做什么事情。让大家在脑海里对MQ系统有初步的认知。后续章节在介绍Kafka时其实都是对这几个模块的庖丁解牛。希望能给小伙伴们带来帮助。
END