#yyds干货盘点# 大数据技术栈之Spark架构总结

关注 juggles

文章目录

概述
Spark 对比 Hadoop
Spark 核心模块
运行架构
架构概览
通用运行流程
Spark 核心编程
RDD

#yyds干货盘点# 大数据技术栈之Spark架构总结

精选原创

juggles 2022-02-08 18:34:53 ©著作权

文章标签 spark 数据计算引擎 文章分类 Spark 大数据 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者juggles的原创作品，请联系作者获取转载授权，否则将追究法律责任

概述

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Spark 对比 Hadoop

Hadoop的MapReduce和Spark都是数据处理框架，有何区别？

Spark在多个作业（RDD）之间数据通信基于内存，速度更快，且MapReduce是基于磁盘，速度很慢

Spark 核心模块

Spark Core：核心功能实现
Spark Sql：用来操作结构化数据
Spark Streaming：针对实时数据进行流式计算
Spark MLib：机器学习算法库
Spark GraphX：图计算框架和算法库

运行架构

架构概览

Spark 核心是计算引擎，采用了Master-Slave结构

#yyds干货盘点# 大数据技术栈之Spark架构总结_数据

Driver：代表master节点，用于执行Spark任务中的main方法，负责实际代码的执行，主要负责

将用户程序转化为作业（Job）
在Executor间调度任务（Task）
跟踪Executor的执行情况
通过UI展示查询运行情况

Executor：是集群中工作节点（Worker）中的一个JVM进程，负责在Sprak作业中运行具体任务（Task）

负责运行Job，并将结果返回给驱动器进程
通过自身的Block Manager为用户程序中要求缓存的RDD提供内存式存储

通用运行流程

#yyds干货盘点# 大数据技术栈之Spark架构总结_计算引擎_02

提交Spark任务，启动Driver程序
Driver向集群资源管理器注册应用程序
资源管理器根据任务的配置文件分配Executor并启动
Driver开始执行main函数，Spark查询为懒执行，当执行到 Action 算子时开始反向推算，根据宽依赖进行 Stage 的划分，随后每一个 Stage 对应一个 Taskset，Taskset 中有多个 Task，查找可用资源 Executor 进行调度；
根据本地化原则，Task 会被分发到指定的 Executor 去执行，在任务执行的过程中， Executor 也会不断与 Driver 进行通信，报告任务运行情况。

Spark 核心编程

RDD

Resilient Distributed DataSet（弹性分布式数据集），是Spark最基本的数据处理模型

弹性

存储的弹性：内存与磁盘的自动切换
容错的弹性：数据丢失可以自动恢复
计算的弹性：计算出错重试机制
分片的弹性：可根据需要重新分片

分布式：数据存储在大数据集群的不同节点

数据集：RDD封装了计算逻辑，并不保存数据

数据抽象：RDD是一个抽象类，需求子类实现

可分区、并行计算

赞
收藏
评论
分享
举报

上一篇：#yyds干货盘点# 大数据技术栈之HBase架构总结

下一篇：#yyds干货盘点# 大数据技术栈之Hadoop-HDFS

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册