spark设置并行度代码 spark并行度

转载

mob64ca1403528a 2023-08-12 14:38:11

文章标签 spark设置并行度代码并行度 spark 数据 文章分类 Spark 大数据

Spark Word Count 示例

每个Spark作业其实都是一个 Application，每个 Application 对应多个 Jobs，一个 action 操作（比如 collect）触发一个 job，在WordCount程序中有一个 job，每个 job 拆成多个 stage（发生 shuffle 的时候回拆分出一个 stage），reduceByKey 处会发生 shuffle。

spark设置并行度代码 spark并行度_数据

具体调节并行度

1、什么是并行度？
Spark作业中，各个stage的task数量，就代表Spark作业在各个阶段（stage）的并行度
2、为什么要调节并行度？
如果不调节并行度，导致并行度过低，会导致什么？
假设，现在 spark-submit脚本里，给我们spark作业分配了足够多的资源，比如50个excutor ，每个excutor有10g内存，每个excutor，有3个core,基本达到集群或者yarn队列的资源上限。
task没有设置，或者设置的很少，比如就设置了100个task.50个excutor，每个excutor有3个cpu core,也就是说，Application任何一个stage运行时，都有总数在150个cpu core,可以并行运行。但是只有100个task,平均分配，每个excutor分配2个task，那么导致每个excutor 剩余一个cpu core 浪费资源
资源虽然足够，但是并行度没有与资源相匹配，导致分配下去资源浪费掉

合理的并行度的设置，应该是要设置的足够大，达到可以完全力合理利用集群资源，集群总共有150个cpu core,可以并行运行150个task.那么久应该将Application的并行度，至少设置成150，才能完全利用集群资源，让150个task并行执行；而且150个以后，既可以同时并行运行，还可以让每个task要处理的数据量变少；比如总共150G的数据要处理，如果是100个task，每个task计算1.5G的数据；现在增加到150个task，可以并行运行，而且每个task主要处理1G的数据就可以。

3、如何提高并行度？

task数量，至少设置成与Spark application的总cpu core数量相同（最理想请情况，比如总共150个cpu core,分配了150个task,一起运行，差不多同一时间运行完毕）
官方推荐是，task数量，设置成spark application 总cpu core数量2-3配，比如150个cpu core，基本要设置成task数量为300-500
实际情况中，有些task 会运行的快一点，比如50s就完了，有些task,可能会比较慢一点
需要一分钟多才结束，如果task数量，刚好设置的与cpu core数量相同，可能还是会导致资源的浪费因为，比如150个task，10个先运行完了，剩余140个还在运行，但是这个时候，有10个cpu core就空闲出来了，就导致了浪费。那如果task数量设置成cpu core总数的2~3倍，那么一个task运行完了以后，另一个task马上可以补上来，就尽量让cpu core不要空闲，同时也是尽量提升spark作业运行的效率和速度，提升性能
如何设置一个Spark Application并行度

spark.default.parallelism 
SparkConf conf = new SparkConf()
  .set("spark.default.parallelism", "500")

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python中\r\n python中rnn函数

下一篇：html5软件下载电脑版 html5安卓软件下载

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯