Flink与Spark一样也是大数据计算引擎,可以完成离线的批处理计算和流处理计算。Flink的优势在它的流处理引擎DataStream。下图展示了Flink的生态圈体系架构。 点击这里查看视频讲解:【赵渝强老师】:Flink生态圈组件 从下往上可以将Flink的生态圈体系划分成三层,分别是:平台部署层、核心引擎层和API&Library层。下面分别进行介
Spark的生态圈体系架构与Hadoop略有不同。因为在Spark中只有数据的计算部分,没有数据的存储部分,因为Spark的核心就是它的执行引擎。下图展示了Spark的生态圈体系,以及访问每个模块的访问接口。 点击这里查看视频讲解:【赵渝强老师】:Spark生态圈组件 1、离线执行引擎Spark Core Spark Core是Spark的核心部分,也是Spark
下图为大家展示了Hadoop生态圈体系中的主要组件以及它们彼此之间的关系。 点击这里查看视频讲解:【赵渝强老师】:Hadoop生态圈组件 这里先简单说明每一个组件的作用功能。 一、HDFS 它的全称是Hadoop Distributed File System,它是Hadoop分布式文件系统,用于解决大数据的存储问题。HDFS源自于Google的GFS论文,
Yarn作为一个资源和任务调度的平台,在实际应用中往往不止一个应用程序运行在Yarn之上,例如:在Yarn上同时运着MapReduce任务、Spark任务和Flink任务等等。这时候Yarn就需要有一种机制进行调度去分配资源给这些应用程序。 点击这里查看视频讲解:【赵渝强老师】:Yarn的资源调度策略 Yarn的资源调度方式主要有以下三种: 一、FIFO Sched
在了解了大数据各个生态圈所包含的组件及其功能特性后,就可以利用这些组件来搭建一个大数据平台从而实现数据的存储和数据的计算。下图展示了大数据平台的整体架构。 点击这里查看视频讲解:【赵渝强老师】:大数据平台的Lambda架构 点击这里查看视频讲解:【赵渝强老师】:大数据平台的Kappa架构 大数据平台的总体架构可以分为五层,分别是:数据源层、
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号