大数据实时处理技术方案flink sql 大数据实时计算引擎flink

转载

新新人类 2024-05-19 21:25:40

文章标签 flink big data 流处理 Apache 大数据 文章分类 架构后端开发

Flink 入门

大数据实时处理技术方案flink sql 大数据实时计算引擎flink_big data

什么是Flink

Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架
Flink 官网

Flink 的发展历史d

Flink 诞生于欧洲的一个大数据研究项目 StratoSphere。该项目是柏林工业大学的一个研究性项目。早期，Flink 是做 Batch 计算的，但是在 2014 年， StratoSphere 里面的核心成员孵化出 Flink，同年将 Flink 捐赠 Apache，并在后来成为 Apache 的顶级大数据项目，同时 Flink 计算的主流方向被定位为 Streaming，即用流式计算来做所有大数据的计算，这就是 Flink 技术诞生的背景。

2014 年 Flink 作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角

Flink 与 Storm 及 Spark Streaming 等计算引擎的区别？

1、Flink 是一个高吞吐、低延迟的计算引擎
2、提供了有状态的计算，支持状态管理，支持强一致性的数据语义
3、支持基于Event Time的WaterMark对延迟或乱序的数据进行处理等

大数据计算引擎发展

第一代: MapReducer

批处理：Mapper, Reducer
Hadoop的MapReducer将计算分为两个阶段, 分别为Map和Reducer

第二代: DAG框架 (Tez) + MapReducer

批处理 1个Tez = MR (1) + MR (2) + … + MR (n) 相比MR效率有所提升

第三代: Spark

批处理, 流处理, SQL高层API支持 自带DAG ,内存迭代计算, 性能较之前大幅提升

第四代: Flink

批处理, 流处理, SQL高层API支持 自带DAG ,流式计算性能更高, 可靠性更高

Flink 的特点

图解

大数据实时处理技术方案flink sql 大数据实时计算引擎flink_Apache_02

Flink 项目的理念

Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架

描述

Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。
Flink 被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来(流，批)执行计算。

Flink流处理的特点

1、同时支持高吞吐，低延迟，高性能

低延迟，状态保存在内存中，很快计算完

2、支持事件时间（Event Time）概念

Process TIme,大多数框架窗口计算采用的都是系统时间（process time），也是事件传输到计算框架处理时，系统主机的当前时间。
Event Time，Flink支持基于事件时间（Event Time）语义进行窗口计算，也就是使用事件产生的时间，这种基于事件驱动的机制使得事件即使乱序到达，流系统也能够计算出精确的结果，保持了事件原本产生时的时序性，尽可能避免网络传输或硬件系统的影响。

3、支持有状态计算

4、支持高度灵活的窗口（Window）操作

Flink中除了滚动窗口，滑动窗口还有基于数量的窗口Count，基于会话的窗口Session。

5、基于轻量级的分布式快照（CheckPoint）来实现容错

6、基于JVM实现独立的内存管理

7、Save Point保存点

CheckPoint是自动的，做容错。
SavePoint是手动的，处理程序升级

到底了。。。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：SQL Server中无法录入中文 sql server输入提示

下一篇：python cmd print不显示 pycharm没有print

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯