flink 设置消费者组 flink设计模式

关注数码悟透

flink 设置消费者组 flink设计模式

转载

数码悟透 2024-03-18 09:34:14

文章标签 flink 设置消费者组 big data flink java 客户端 文章分类 架构后端开发

一.架构设计

架构设计图
各层及相关术语说明

物理层

解决flink的部署模式的问题
支持多种部署模式:本地,集群,云及k8s
用户可以根据不同的场景选择不同的部署模式

核心层

是flink的核心实现层,负责为上层的接口提供服务
Runtime

flink的核心计算

Optimizer

负责任务的优化

Stream Buider

负责对任务进行DAG优化

API层

面向用户,负责更好的用户开发体验
提供了流计算和批处理的接口,同时在这个基础上又开发了不同的组件库

基于流处理的CEP(Complex event process,复杂事件处理)
Table和SQL
基于批处理的机器学习库flinkML
图处理库Gelly

API层包括两部分

流处理应用的DataStream API
批处理应用的DataSet API
统一的API,包括直接操作状态和时间等底层数据

二.运行模式

各个运行模式的区分点

集群的生命周期
资源的隔离保障

运行模式分类

本地
standlone 独立flink集群,也就是集群中仅安装了flink
集群运行

经常是指flink on yarn
三种

session
pre-job
application

本地

一个机器的单进程多线程模拟集群
一般用于测试

standlone

完全独立的flink集群,纯flink完成各种工作

集群

session

生命周期

集群首先创建了一个回话等待客户端连接,单个任务结束后并不会关闭会话,可以接受多个作业的提交.
一句话 : 保持会话通道,接受多个任务

资源隔离

由于所有作业共享同一个集群,所以如果一个TaskManager失败,它上所有的任务都将失败,一个JobManager失败,它将影响集群中运行的所有作业
一句话 : 管理者宕掉,任务全部GG

总结

速度快,但是有风险

工作模式

附加模式(默认)

特点

客户端与flink作业集群同步

细节

客户端将集群交给yarn,但是客户端保持运行,持续追踪集群状态
但是如果集群发生错误,客户端将显示,如果客户端关闭,对应也会通知集群关闭

一句话:session模式下的flink默认就是这个,客户端与集群一个关,都关

分离模式

特点

客户端与flink集群相互异步,客户端提交完成后就可以退出

细节

yarn-session.sh客户端将集群提交给yarn,然后客户端返回
需要再次调用客户端或者yarn来停止集群

一句话:客户端提交了集群后就可以退出

工作流程

多个作业向同一个Session提交,由它统一管理
示意图

pre-job

生命周期

集群管理器(yarn)为每个任务创建一个集群,该集群仅用于该作业.
客户端首先向集群管理器请求资源启动JobManager,然后将这个作业提交给Dispactcher.然后作业的资源请求惰性分配TaskManager.一旦作业完成,集群将被拆除

资源隔离

JobManager中的错误仅会影响其中的一个作业

总结

pre-job模式适合长期运行,具有高稳定性且对启动时长要求不高的大型作业

工作流程

多个不同的作业分别向自己的Session会话上提交作业
流程图

application

生命周期

main方法在集群上
提交作业的是一个单步骤过程

jar包和资源上传hdfs
jobManager去拉去对应的jar包和资源,如果存在HA,就选举出一个Active
由jobManager所在机器调用main方法提取JobGraph,作为客户端程序和集群进行交互,直到任务结束
如果main方法中有多个env.execute()/executeAsync()调用,在Application中,这些作业会被视为同一个应用,在同一个集群上执行
application的寿命和对于作业的寿命有关

资源隔离

在 Flink Application 集群中，ResourceManager 和 Dispatcher 作用于单个的 Flink 应用程序，相比于 Flink Session 集群，它提供了更好的隔离。

总结

该模式为yarn session和yarn per-job模式的折中选择。

工作流程

将各个环节更进一步进行专用化处理，相当于每个FlinkJob都有一套专用的服务角色进程。

示意图

总结

各个模式应用场景

session模式

集群资源充分、频繁任务提交、小作业居多、实时性要求高的场景。

per-job模式

作业少、大作业、实时性要求低的场景。

application模式

实时性要求不太高、安全性有一定要求均可以使用，普遍适用性最强。

生产环境中

一般建议用per-job或是application模式，提供了更好的资源隔离性和安全性。

三.运行流程

核心角色

一个JobManager
一到多个TaskManager

流程图
-
角色剖析

JobManager

主要作用就是协调和监控Task,Task的执行顺序,task的任务状态决策等
这个进程由三个不同的组件组成

ResourcesManager

ResourceManager 负责 Flink 集群中的资源提供、回收、分配 - 它管理 task slots，这是 Flink 集群中资源调度的最小单位。Flink 为不同的环境和资源提供者（例如 YARN、Mesos、Kubernetes 和 standalone 部署）实现了对应的 ResourceManager。在 standalone 设置中，ResourceManager 只能分配可用 TaskManager 的 slots，而不能自行启动新的 TaskManager。

Dispatcher

Dispatcher 提供了一个 REST 接口，用来提交 Flink 应用程序执行，并为每个提交的作业启动一个新的 JobMaster。它还运行 Flink WebUI 用来提供作业执行信息。

JobMaster

JobMaster 负责管理单个JobGraph的执行。Flink 集群中可以同时运行多个作业，每个作业都有自己的 JobMaster。
始终至少有一个 JobMaster。高可用（HA）设置中可能有多个 JobMaster，其中一个始终是 leader，其他的则是 standby。

TaskManager

TaskManager（也称为 worker）执行作业流的 task，并且缓存和交换数据流。
必须始终至少有一个 TaskManager。在 TaskManager 中资源调度的最小单位是 task slot。TaskManager 中 task slot 的数量表示并发处理 task 的数量。请注意一个 task slot 中可以执行多个算子。

Yarn模式提交任务的工作流程

flink-application运行模式

flink 设置消费者组 flink设计模式_flink

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：linux查找Out Of Memory错误 linux查找命令find

下一篇：unity 保存数据在什么时候保存 unity保存进度

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册