Flink是什么
Apache Flink 是一个在无界和有界数据流上进行状态计算的框架和分布式处理引擎。Flink 已支持在所有常见的集群环境(k8s、yarn)中运行,并以 in-memory 的速度和任意的规模进行计算。
简言之,Flink是基于数据流之上的一个有状态的开源计算框架。
上图为Flink的工作示意图,中间蓝框部分是Flink的处理单元。上游可对接实时(实时事件流)和离线(db/文件/kv存储格式)形式的数据流,经过Flink框架的转换处理,再流向下游的应用系统、新的实时事件流或数据存储(db/文件/kv存储格式)。
Flink特性
- 流和批计算支持,适合事件驱动类型应用、流和批数据分析、ETL处理等场景。
- 正确性保证,支持Exactly-once(精确一次)语义、Event-time processing(实践时间处理)、Sophisticated late data handling(复杂延迟数据处理)等功能机制。
- 易用的分层api,SQL on Stream & Batch Data、DataStream API & DataSet API、ProcessFunction (Time & State)等。
- 低延迟、高吞吐率、内存计算模型。
- 高可用安装,灵活的部署方式,Savepoints支持。
- 可伸缩架构,大容量应用数据状态存储,增量checkpointing(检查点)机制支持。
Flink架构
Flink框架架构分为JobManager和TaskManager两部分,其中JobManager复杂协调管理,TaskManager复杂具体任务逻辑处理。Flink Program程序只作为clinet的连接交互,无实际应用实例运行。
Flink docker安装
Flink部署安装方式有很多种,本文只作入门介绍,这里以docker单机方式安装,便于快速学习了解Flink框架。
Flink其他安装部署可参考https://ci.apache.org/projects/flink/flink-docs-release-1.11/中的Deployment & Operations部分。
docker image版本
Flink框架支持java和scala语言,在镜像版本中也有相应体现。如flink:1.11.2-scala_2.11,表示flink版本1.11.2,scala版本2.11。官方也同时提供了简写的版本方式。
- flink:latest → flink:-scala_
- flink:1.11 → flink:1.11.-scala_2.11
详细tag版本可参考地址:
https://hub.docker.com/_/flink/?tab=tags
docker安装
创建docker网络:
docker network create flink-network
如上图,执行创建命令后,docker network ls查看,出现flink-network表明创建成功。
创建Flink JobManager:
docker run -d --rm --name=jobmanager --network flink-network -p 8081:8081 --env FLINK_PROPERTIES="jobmanager.rpc.address: jobmanager" flink:1.11.2-scala_2.11 jobmanager
创建Flink TaskManager:
docker run -d --rm --name=taskmanager --network flink-network --env FLINK_PROPERTIES="jobmanager.rpc.address: jobmanager" flink:1.11.2-scala_2.11 taskmanager
查看docker容器:
执行docker ps,查看jobmanager和taskmanager。
管理界面:
浏览器访问jobmanager界面http://192.168.31.113:8081/,192.168.31.113请自行替换为docker安装ip。
点击界面菜单submit new job --> add new 按钮,即可将flink程序上传到Flink执行环境中执行。
总结
本文对Flink计算框架进行了简单介绍。阐述了Flink框架的作用,支持特性,架构设计,以及docker安装。通过以上内容的学习,相信对Flink框架概况有了整体的认识和初步的了解。