面试题一:应用架构问题:公司怎么提交的实时任务,有多少 Job Manager? 解答:我们使用 yarn session 模式提交任务。每次提交都会创建一个新的 Flink 集群,为每一个 job 提供一个 yarn-session,任务之间互相独立,互不影响, 方便管理。任务执行完成之后创建的集群也会消失。线上命令脚本如下:bin/yarn-session.sh -n 7 -s 8 -jm 3
转载
2024-03-18 18:54:52
90阅读
文章目录Flink面试题汇总1.在日常开发过程中,公司使用哪种方式提交的实时任务,有多少Job Manager、Task Manager?2.怎么做压力测试和监控?3.为什么使用 Flink 替代 Spark?4.checkpoint 的存储?5.如果下级存储不支持事务,Flink 怎么保证 exactly-once?6.说一下 Flink 状态机制?7.怎么去重?考虑一个实时场景:双
1. Flink是如何支持批流一体的?本道面试题考察的其实就是一句话:Flink的开发者认为批处理是流处理的一种特殊情况。批处理是有限的流处理。Flink 使用一个引擎支持了DataSet API 和 DataStream API。2. Flink是如何做到高效的数据交换的?在一个Flink Job中,数据需要在不同的task中进行交换,整个数据交换是有 TaskManager 负责的,TaskM
转载
2024-06-07 07:43:56
60阅读
1.Flink基础1. 简单介绍一下 FlinkFlink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处
转载
2024-06-26 09:43:08
196阅读
Flink常见的面试题1. Flink-On-Yarn的两种架构问题:Flink-On-Yarn常见的提交模式有哪些,分别有什么优缺点?解答:flink在yarn模式下运行,有两种任务提交模式,资源消耗各不相同。1. yarn-sessionyarn-session这种方式需要先启动集群,然后在提交作业,接着会向yarn申请一块空间后,资源永远保持不变。如果资源满了,下一个就任务就无法提交,只能等
转载
2024-02-29 09:09:11
131阅读
问题: 为什么使用 Flink 替代 Spark?解答:主要考虑的是 flink 的低延迟、高吞吐量和对流式数据应用场景更好的支持; 另外, flink 可以很好地处理乱序数据, 而且可以保证 exactly-once 的状态一致性。详见文档第一章, 有 Flink 和 Spark 的详细对比。问题: Flink 的 checkpoint 存在哪里?解答: 可以是内存, 文件系统, 或者 Rock
转载
2024-03-10 10:57:15
128阅读
16. Flink中有哪些窗口? Flink 支持两种划分窗口的方式,按照time和count。如果根据时间划分窗口,那么它就是一个time-window 如果根据数据划分窗口,那么它就是一个count-window。flink支持窗口的两个重要属性(size和interval)如果size=int ...
转载
2021-09-08 17:29:00
262阅读
2评论
1.什么是Apache Flink(为什么使用 Flink 替代 Spark?) Apache Flink 是一个开源的基于流的有状态计算框架。它是分布式地执行的,具备低延迟、高吞吐的优秀性能,并且非常擅长处理有状态的复杂计算逻辑场景。2.Flink 的核心概念 &n
转载
2024-02-28 10:08:06
98阅读
1、简单介绍一下FlinkFlink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且Flink提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala
原创
精选
2022-08-25 10:13:07
1130阅读
点赞
1 Flink是如何支持批流一体的?本道面试题考察的其实就是一句话:Flink的开发者认为批处理是流处理的一种特殊情况。批处理是有限的流处理。Flink 使用一个引擎支持了DataSet API 和 DataStream API。2 Flink是如何做到高效的数据交换的?在一个Flink Job中,数据需要在不同的task中进行交换,整个数据交换是有 TaskManager 负责的,TaskMan
推荐
原创
2022-08-26 15:40:32
1652阅读
点赞
1 Flink Job的提交流程用户提交的Flink Job会被转化成一个DAG任务运行,分别是:StreamGraph、JobGraph、ExecutionGraph,Flink中JobManager与TaskManager,JobManager与Client的交互是基于Akka工具包的,是通过消息驱动。整个Flink Job的提交还包含着ActorSystem的创建,JobManager的启动
原创
精选
2022-08-27 09:30:19
575阅读
点赞
FlinkFlink 的容错机制(checkpoint) Flink checkpoint与 Spark Flink 有什么区别或优势吗 Flink 中的 Time 有哪几种 对于迟到数据是怎么处理的 Flink 的运行必须依赖 Hadoop组件吗 Flink集群有哪些角色?各自有什么作用 Flink 资源管理中 Task Slot 的概念 Flink的重启策略了解吗 Flink是如何保证Exactly-once语义的 如果下级存储不支持事务,Flink 怎么保证 exactly...
原创
2021-06-10 20:28:02
210阅读
抽象层次
levels_of_abstraction
最低级的抽象接口是状态化的数据流接口(stateful streaming)。这个接口是通过 ProcessFunction 集成到 DataStream API 中的。该接口允许用户自由的处理来自一个或多个流中的事件,并使用一致的容错状态。另外,用户也
转载
2024-07-17 06:36:24
46阅读
文章目录1.Flink 是如何支持批流一体的2.Flink 是如何做到高效的数据交换的3.Flink 是如何做容错的4.Flink 分布式快照的原理是什么5.Flink 是如何保证 Exactly-once 语义的6.的流处理。Fl
原创
2022-05-26 00:38:11
903阅读
文章目录1.Flink 的并行度了解吗?Flink 的并行度设置是怎样的?2.Flink 的 Slot 和 parallelism 有什么区别3.link 有没有重启策略?说说有哪几种?4.用过 Flink 中行,其
原创
2022-05-26 00:38:18
444阅读
1.Flink 相比传统的 Spark Streaming 区别Fink 是标准的实时处理引擎,基于事件驱动。而 Spark Streaming 是微批(Micro-Batch)的模型。架构模型 Spar
原创
2022-05-26 00:38:44
481阅读
FlinkFlink 的容错机制(checkpoint) Flink checkpoint与 Spark Flink 有什么区别或优势吗 Flink 中的 Time 有哪几种 对于迟到数据是怎么处理的 Flink 的运行必须依赖 Hadoop组件吗 Flink集群有哪些角色?各自有什么作用 Flink 资源管理中 Task Slot 的概念 Flink的重启策略了解吗 Flink是如何保证Exactly-once语义的 如果下级存储不支持事务,Flink 怎么保证 exactly...
原创
2021-06-10 20:28:03
168阅读
代码真的是重质不重量,质量高的代码,是当前代码界提倡的,当然写出高质量的代码肯定需要一个相当高的专业素养,这需要在日常的代码书写中逐渐去吸收掌握,谁不是每天都在学习呀,目的还不是为了一个,为实现某个功能写出高质量的代码。作为程序开发者,让我写一万行的代码?!are you kidding me?(黑人问号脸)我估计写到20万的时候就会突然有个疑问—-“咦?我的头发呢?”1、自我介绍。自我介绍其实是
转载
2024-07-15 01:43:36
36阅读
概述2019 年是大数据实时计算领域最不平凡的一年,2019 年 1 月阿里巴巴 Blink (内部的 Flink 分支版本)开源,大数据领域一夜间从 Spark 独步天下走向了两强争霸的时代。Flink 因为其天然的流式计算特性以及强大的处理性能成为炙手可热的大数据处理框架。时至今日,Flink 已经发展到 1.9 版本,在大数据开发领域,面试中对于 Flink 的考察已经是
转载
2024-03-25 15:08:05
78阅读
目录一 . 你在开发Flink任务时,有没有遇到过背压问题,你是如何排查的?二. 如何处理生产环境中的数据倾斜问题?一 . 你在开发Flink任务时,有没有遇到过背压问题,你是如何排查的?1. 背压产生的原因背压常常出现在大促或者一些热门活动等场景中, 在上面这类场景中, 短时间内流量陡增导致数据的堆积,系统整体的吞吐量无法提升。2. 监控背压方法可以通过 Flink Web UI 发现背压问题F
转载
2024-05-09 20:32:12
53阅读