多个flinksql任务写入一个mongodb表 flink写入mysql并行度只能是1

转载

mob6454cc620c34 2024-02-04 00:58:25

文章标签 flink 并行度子任务 redis 文章分类 MongoDB 数据库

Flink集群运行时架构及部署

一、并行度（Parallelism）

多个flinksql任务写入一个mongodb表 flink写入mysql并行度只能是1_并行度

1.上图能够看出，不能chain在一起的operator会被分配到不同的Task中，也就是说Task是Flink中资源调度最小的单位。

a.一个特定算子的子任务（subtask）的个数被称之为并行度（parallelism）

b.一般情况下，一个流程序的并行度，是由程序中算子中最大的并行度。

c.一个程序中，不同的算子可以有不同的并行度。

多个flinksql任务写入一个mongodb表 flink写入mysql并行度只能是1_子任务_02

2.1Flink程序的执行具有并行、分布式的特性

在执行的过程中，一个流（Stream）包含一个或多个分区（Stram partition），而每一个算子包含一个或多个子任务（subtask），这些子任务在不同的线程、不同的物理机、不同的容器互不依赖的执行。

2.2Stream在算子之间传输数据的形式可以是one-to-one模式（forwrding）的模式也可以是redistributing的模式，具体是哪一种形式，取决于算子的种类。

a.one-to-one模式类似于spark中窄依赖。Stream（比如在source和map operator之间）维护着分区以及元素的顺序。意味着map算子的子任务看到的元素个数以及顺序跟source算子的子任务生产的元素个数、顺序相同，map、filter、flatmap等算子都是one-to-one的对应关系。

b.Redistributing模式类似于spark中的宽依赖，stream（map（）跟keyby/window之间或者keyby/window跟sink之间）的分区会发生改变。每一个算子的子任务依据所选择的transformation发送数据到不同的目标任务。例如：keyby基于hashcode重分区、broadcast和rebalance会随机重新分区，这些算子都会引起redistribute过程。