Apache Spark如何并行计算

关注 imking

文章目录

文章目录
并行度
如何设置并行度
如何规划我们自己群集环境的并行度？
Spark的任务调度

Apache Spark如何并行计算

转载

imking 2024-09-10 09:27:45

文章标签 Apache Spark如何并行计算 spark 大数据分布式并行度 文章分类 Spark 大数据

文章目录

并行度

如何设置并行度
如何规划我们自己群集环境的并行度？

Spark的任务调度

并行度

Spark之间的并行就是在同一时间内，有多少个Task在同时运行。并行度也就是并行能力的设置，假设并行度设置为6，就是6个task在并行跑，有个6个task的前提下，RDD的分区就被规划为6个分区。

如何设置并行度

规划并行度优先级：代码→客户端提交参数→配置文件→默认设置（默认为1，具体会根据文件的分片数来跑）。
配置文件中设置

# conf/spark-defaults.conf中设置
spark.default.parallelism 100

# 客户端提交参数
spark-submit --conf "spark.default.parallelism=100"

# 在代码中设置
conf = SparkConf()
conf.set("spark.default.parallelism", "100")

Tips：全局并行度是推荐设置，不要针对RDD改分区，可能会影响内存迭代管道的构建或者会产生额外的Shuffle。reparation、coalesce、reparationBy等算子避免使用。

如何规划我们自己群集环境的并行度？

一般来说我们设置为群集CPU核心的2-10倍（确保最小为2倍，最大一般来说为10倍适度超出也没什么问题）。
为什么最少要设置成2倍呢？

CPU的一个核心同一时间只能干一件事，所以在100个核心的前提下，设置100个并行，就能保证cpu资源100%的利用，但是如果task压力不均衡，某个task先执行完了，就会导致某个CPU核心空闲。如果设置了800个并行，100个在运行，700个在等待，而某个task运行完之后，后续的task继续运行，不会造成CPU空闲，从而最大程度的利用群集的资源。

Spark的任务调度

Driver也就是我们通常理解的包工头。它的主要工作就是：

1 逻辑DAG的构建
2 分区DAG的构建
3 Task划分
4 将Task分配给Executor（民工）并监控其工作

Spark调度流程图：

Apache Spark如何并行计算_并行度

Driver被构建出来。
构建SparkContext(执行环境入口对象)。
基于DAG Scheduler(DAG 调度器)构建逻辑Task的分配。
基于Task Scheduler(Task 调度器)将逻辑Task分配到各个Executor上干活，并监控它们。
Worker(Executor)被监控，听它们的指令干活，并且定期汇报执行进度。

Driver内的的两个调度组件：

DAG 调度器
工作内容：将逻辑DAG图进行处理，最终得到逻辑上的Task划分。
Task 调度器
基于DAG Scheduler的产出，来规划这些逻辑的Task，应该在哪个物理Executor上面去运行，并且监控它们。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：java 线程变量安全

下一篇：java中jvm缓存怎么使用

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册