初始apache beam

原创

breakDawn 2022-09-26 10:08:01 博主文章分类：apache beam ©著作权

©著作权归作者所有：来自51CTO博客作者breakDawn的原创作品，请联系作者获取转载授权，否则将追究法律责任

apache beam的使用背景

大数据项目一定会涉及数据处理和计算，就会涉及到选用哪种计算工具，摆在面前的有spark、flink、mapreduce、Google Cloud Dataflow等等诸多选择，如果以同一种计算逻辑去切换计算引擎，就要重新修改里面的API，并调整使用细节，非常不方便。

因此就出现了1个整合这些计算资源的解决方案：apache beam

Beam是1个统一的编程框架，支持批处理和流处理，并可以将用beam写出来的程序，在多个计算引擎上去运行。

以下是bema当前可支持的计算引擎

初始apache beam_数据集

beam构成

以下图为例，我们可以到，开发者只要用beam框架开发最上层的计算逻辑，而后面使用何种计算引擎，则不需要关心，beam会自动将我们的计算逻辑转成spark或者flink的代码去运行。

初始apache beam_流处理_02

beam编程模型

1个beam程序，主要涉及以下4个概念：
Beam的编程模型是Google的工程师从MapReduce, FlumeJava, 和Millwheel等多个大数据处理项目中抽象出来的，如果想详细了解可以参考相关的报考和论文，Streaming 101，Streaming 102 和VLDB 2015 paper.。这个编程模型主要包括如下几个核心概念：