大数据流处理平台的技术选型参考

原创

agiledon 2021-07-22 18:01:16 博主文章分类：大数据 ©著作权

©著作权归作者所有：来自51CTO博客作者agiledon的原创作品，请联系作者获取转载授权，否则将追究法律责任

选择太多，是一件好事情，不过也容易乱花渐欲迷人眼。倘若每个平台（技术）都去动手操练一下，似乎又太耗时间。通过阅读一些文档，可以帮我们快速做一次筛选。在将选择范围进一步缩小后，接下来就可以结合自己的应用场景去深入Spike，做深度的甄别，这是我做技术选型的一个方法。

技术没有最好，只有最适用。在做技术选型时，需要选择适合需求、适合项目类型、适合团队的技术。这是实用主义的判断，而非理想主义的追捧。若是在实用的技术选型中，再能点燃一些些技术上的情怀，那就perfect了！

属性矩阵(Attributes Matrix)

我在《Apache下流处理项目巡览》一文中翻译了Janakiram的这篇文章，介绍了Apache基金会下最主流的流处理项目。巧的是，我在InfoQ上又发现了Ian Hellstrom的文章，他用一张图给出了非常棒的总结。

为了更好地阅读，我将这张图的内容转成如下的矩阵表。由于Ian的文章是2016年撰写的，我对其内容做了适度更新。

表一: 流平台的质量属性

表一（续）：流平台的质量属性

流平台 | 容错 | 处理顺序 | 事件的优先级 | Windowing | Back-pressure(背压）
— | — | — | — | — | — | —
Flume | yes(只针对file channel) | no | no | no | no
NiFi | yes | no | yes | no | yes
Gearpump | yes | yes | programmable | time-based | yes
Apex | yes | no | programmable | time-based | yes
Kafka Streams | yes | yes | programmable | time-based | N/A
Spark Streaming | yes | no | programmable | time-based | yes
Storm | yes | yes | programmable | time-based, count-based | yes
Samza | yes | yes(单分区情况则不支持) | programmable | time-based, count-based | yes
Flink | yes | yes | programmable | time-based, count-based | yes
Ignite Streaming | yes | yes | programmable | time-based, count-based | yes
Beam | yes | yes | programmable | time-based | yes

表一（再续）：流平台的质量属性

表一（终）：流平台的质量属性

数据流模型

在进行流数据处理时，必然需要消费上游的数据源，并在处理数据后输出到指定的存储，以待之后的数据分析。站在流数据的角度，无论其对数据的抽象是什么，都可以视为是对消息的生产与消费。这个过程是一个数据流（data flow），那么负责参与其中的设计元素就可以称之为是“数据流模型（Data flow model）”。

不同流处理平台的数据流模型有自己的抽象定义，也提供了内建的支持。我针对Flume、Flink、Storm、Apex以及NiFi的数据流模型作了一个简单的总结。