作者:柴锦文

flink流计算项目架构初步思考

DAG有向无环图介绍

flink 大维表 flink的dag_flink

DAG有向无环图 ,Source的并行度为1,所以其只有1个Task。 DAG抽象:将分布式计算作业拆分成并行子任务,每个子任务 表示数据处理的一个步骤,并且在上下游之间建立数据流的流通关 系。 FlatMap的并行度为2,所以其有2个Task。KeyedAgg与Sink根据优化策 略合并成了1个执行单元,并行度都是2,所以有2个Task。KeyedAgg与Sink的合并使用了算子融合,将符合优化策略的计算步骤合并成为一个OperatorChain。Source Sink便是IO输入输出 现在我们要定义一个数据结构称为DataStream 利用卡夫卡进行输入 转换成DataStream 利用外部文件输出 接收DataStream转换为该文件的格式

flink 大维表 flink的dag_并行度_02

根据题目的意思 flink连接器选择卡夫卡 集群题目意思貌似是要求我们手动使用独立集群 节点通过配置写死

flink 大维表 flink的dag_并行度_03

flink应用被映射成Dataflow,Dataflow由DataStream和Transformation并行组成。 Dataflow本质上是一个有向无环图(DAG)

flink 大维表 flink的dag_并行度_04

flink中DataStreamSource本身就是一个datastream

1.1五个算子的实现参考

1.实现卡夫卡输入的本质 就是实现SourceFunction

2.sink输出 数据读取的API绑定在StreamExecutionEnvironment上,数据写出的API绑定在DataStream对象上。在现在的版本中,只有写到Console控制台、Socket网络端口、自定义三类,写入文本文件、CSV文件等文件接口都已被标记为废弃了。接口使用的详细介绍参照官方文档即可。自定义数据写出接口是DataStream.addSink,对于sink的详细介绍见连接器和输出函数相关知识。

3.Map是接收1个元素,输出1个元素。Map应用在DataStream上,输出结果为DataStream。DataStream#map 运 算 对 应 的 是 MapFunction , 其 类 泛 型 为MapFunction<T,O>,T代表输入数据类型(Map方法的参数类型),O代表操作结果输出类型(Map方法返回的数据类型)

flink 大维表 flink的dag_flink 大维表_05

4.将数据流元素进行逻辑上的分组,具有相同Key的记录将被划分到同一分组。KeyBy()使用Hash Partitioner实现。该运算应用在DataStream上,输出结果为KeyedStream。

5.reduce的合并逻辑由开发者自己实现,该类运算应用在keyedStream上。