spark阶段划分流程 spark划分stage总结

转载

mob6454cc6a01b7 2024-02-23 12:23:42

文章标签 spark阶段划分流程 spark shuffle 学习笔记数据结构 文章分类 Spark 大数据

文章目录

1.Shuffle 核心要点

1.1 ShuffleMapStage 与 FinalStage
1.2 Shuffle中的任务个数
1.3 reduce端数据读取

2.HashShuffle解析

2.1 未经优化的HashShuffleManager
2.2 经过优化的HashShuffleManager

3.SortShuffle解析

3.1 普通运行机制
3.2 bypass运行机制

1.Shuffle 核心要点

1.1 ShuffleMapStage 与 FinalStage

spark阶段划分流程 spark划分stage总结_学习笔记

在划分Stage时，Action算子前的最后一个Stage称为FinalStage(其实就是ResultStage对象)，前面的所有Stage称为ShuffleMapStageShuffleMapStage的结束伴随着shuffle文件的写磁盘

ResultStage基本上对应于代码中的action算子，一个action算子的结束，表示一个Job的结束

1.2 Shuffle中的任务个数

Shuffle分为Shuffle Read和Shuffle Write两个阶段，也称为map阶段和reduce阶段，而这两个阶段都会分为若干个task来进行，task数量又是由什么决定的呢？
假设Spark从HDFS中读取数据，那么初始RDD的分区个数由该文件的split个数决定，也就是一个split对应生成RDD的一个partition。
reduce端的stage默认去spark.default.parallelism配置项作为分区数，如果没有配置则取map端的最后一个RDD的分区数。

1.3 reduce端数据读取

map task执行完毕之后会将任务执行状态和写入磁盘文件的位置告知Driver
reduce task要获取数据时，会向Driver请求获取任务所需要数据的位置，之后去对应的节点上获取。

2.HashShuffle解析

2.1 未经优化的HashShuffleManager

spark阶段划分流程 spark划分stage总结_学习笔记_02

每个map task生成和reduce task数量相等的磁盘文件
问题: 生成大量的小文件

2.2 经过优化的HashShuffleManager

设置参数spark.shuffle.consolidateFiles 新的map task来了会复用上一个map task生成的文件，不会继续产生新的文件(相当于每个CPU只生成和reduce task数量相等的磁盘文件)

3.SortShuffle解析

spark阶段划分流程 spark划分stage总结_学习笔记_03

3.1 普通运行机制

数据写写入一个数据结构(数据结构根据不同的shuffle算子进行选择，如reduceByKey这种聚合类算子:Map结构，会一边进行聚合一边写入内存)
每往数据结构写一条数据，就会判断是否达到某个阈值，达到阈值之后就会将数据结构中的数据溢写到磁盘，同时清空内存数据结构
溢写到磁盘文件之前，会先根据key对内存数据结构中已有的数据进行排序，排序过后，写入内存缓冲区，再会分批将数据写入磁盘(写入磁盘文件是通过Java的BufferedOutputStream实现的，只有当内存缓冲溢满之后再一次写入磁盘中，这样可以减少磁盘IO次数，提升性能)
[外链图片转存失败(img-KiJ7y6tq-1562515948548)(./pic/SortShuffle.png)]
多个磁盘文件会合并，最后会合并成一个大的磁盘文件，同时还会生成一个索引文件(告诉reduce task它所需要的数据在大文件的起始终止位置)，

3.2 bypass运行机制

该运行机制的触发条件是:

shuffle map task数量小于spark.shuffle.sort.bypassMergeThreshold参数的值
不是聚合类的shuffle算子
其实与未经优化HashShuffleManager的机制几乎一样，会产生许多的小文件，只不过最后会有合并成一个大文件(同时还有一个索引文件)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：javaworkbook设置列宽设置jtable列宽度

下一篇：Linux java程序加守护进程 linux守护进程创建

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯