Spark如何保证使用RDD、DataFrame和DataSet的foreach遍历时保证顺序执行

原创

星辰大数据 2022-04-22 13:37:48 博主文章分类：Spark ©著作权

©著作权归作者所有：来自51CTO博客作者星辰大数据的原创作品，请联系作者获取转载授权，否则将追究法律责任

前言

spark运行模式
常见的有 local、yarn、spark standalone cluster
国外流行 mesos 、k8s
即使使用 local 模式，spark也会默认充分利用CPU的多核性能
spark使用RDD、DataFrame、DataSet等数据集计算时，天然支持多核计算
但是多核计算提升效率的代价是数据不能顺序计算
如何才能做到即使用spark数据集计算时又保证顺序执行？

1、重新分区

.repartition(1).foreach

2、合并分区

.coalesce(1).foreach

3、转换成数组

.collect().foreach

4、设置并行度

val spark = SparkSession.builder().config("spark.default.parallelist","1").getOrCreate()

5、设置单核

val spark = SparkSession.builder().appName("").master("local[1]").getOrCreate()

推荐使用 repartition，coalesce 和 collect 可能会出现 oom

速度固然重要，但解决问题才是根本！

上一篇：Java、Scala使用tan和arctan求斜率和倾斜角

下一篇：MySQL报错：【Packet for query is too】【large max_allowed_packet】

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯