flink 大维表 flink的dag

转载

mob64ca141275de 2024-05-15 15:14:32

文章标签 flink 大维表 flink 有向无环图并行度 文章分类 架构后端开发

作者：柴锦文

flink流计算项目架构初步思考

DAG有向无环图介绍

flink 大维表 flink的dag_flink

DAG有向无环图，Source的并行度为1，所以其只有1个Task。 DAG抽象：将分布式计算作业拆分成并行子任务，每个子任务表示数据处理的一个步骤，并且在上下游之间建立数据流的流通关系。 FlatMap的并行度为2，所以其有2个Task。KeyedAgg与Sink根据优化策略合并成了1个执行单元，并行度都是2，所以有2个Task。KeyedAgg与Sink的合并使用了算子融合，将符合优化策略的计算步骤合并成为一个OperatorChain。Source Sink便是IO输入输出现在我们要定义一个数据结构称为DataStream 利用卡夫卡进行输入转换成DataStream 利用外部文件输出接收DataStream转换为该文件的格式

flink 大维表 flink的dag_并行度_02

根据题目的意思 flink连接器选择卡夫卡集群题目意思貌似是要求我们手动使用独立集群节点通过配置写死

flink 大维表 flink的dag_并行度_03

flink应用被映射成Dataflow，Dataflow由DataStream和Transformation并行组成。 Dataflow本质上是一个有向无环图（DAG）

flink 大维表 flink的dag_并行度_04

flink中DataStreamSource本身就是一个datastream

1.1五个算子的实现参考

1.实现卡夫卡输入的本质就是实现SourceFunction

2.sink输出数据读取的API绑定在StreamExecutionEnvironment上，数据写出的API绑定在DataStream对象上。在现在的版本中，只有写到Console控制台、Socket网络端口、自定义三类，写入文本文件、CSV文件等文件接口都已被标记为废弃了。接口使用的详细介绍参照官方文档即可。自定义数据写出接口是DataStream.addSink，对于sink的详细介绍见连接器和输出函数相关知识。

3.Map是接收1个元素，输出1个元素。Map应用在DataStream上，输出结果为DataStream。DataStream#map 运算对应的是 MapFunction ，其类泛型为MapFunction<T,O>，T代表输入数据类型（Map方法的参数类型），O代表操作结果输出类型（Map方法返回的数据类型）

flink 大维表 flink的dag_flink 大维表_05