Flink 的 slot 管理分为 ResourceManager、TaskExecutor、JobMaster 3 个部分,本章节结合 Flink 源码对上述 3 个部分的协作关系、具体实现进行了深入剖析。
本章节重点介绍了 Flink Job 提交过程,包含了 StreamGraph 到 JobGraph 在客户端的转换和优化,并给出了源码级剖析。虽然是以 per-job 模式下的提交过程为例,但在 session、application 模式下核心代码并无二致,均可作为研究参照。
Event Time + WaterMark 是 Flink 处理乱序数据的有效机制,本章节将深入分析 Flink 的 Time 与 WaterMark,使读者对其有更为深刻的理解。
本章节主要介绍了 Flink 的通信框架 akka、Flink on YARN 的三种部署模式、Flink 高可用服务、Flink 文件服务 BlobService。读者可从中进一步了解到 Flink 的工作原理与设计哲学,无论从事 Flink 开发、应用、维护,还是其他分布式系统的设计,均会有启发和收获。
Flink 是当今最主流的大数据流式计算引擎,没有之一。本文将解开 Flink 的神秘面纱,从 MapReduce、Spark、Flink 的技术演进入手,引出 Flink 的核心设计原理、简单的编程模板与执行过程,以及 Flink 内存管理方式。
YARN 的核心功能是资源管理与任务调度,本章节将介绍 YARN 的资源管理与任务调度部分,包括队列配置、三种调度器详解。
Apache Hadoop 可以说是大数据技术的基石,研究大数据不妨先从 Hadoop 说起。而针对分布式框架,最先要搞清楚的就是通信协议与一致性保证。本章节先从通信架构将其,在后续章节会介绍一致性保障。
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号