hadoop作业卡在reducer阶段优化 hadoop解决方案

转载

mob6454cc6172e5 2023-09-03 12:22:24

数据倾斜：

数据倾斜

项目调优

1，提前在map进行combine，减少传输的数据量

在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。

如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。

2，导致数据倾斜的key 大量分布在不同的mapper

（1）局部聚合加全局聚合。

第一次在map阶段对那些导致了数据倾斜的key 加上1到n的随机前缀，这样本来相同的key 也会被分到多个Reducer中进行局部聚合，数量就会大大降低。

第二次mapreduce，去掉key的随机前缀，进行全局聚合。

思想：二次mr，第一次将key随机散列到不同reducer进行处理达到负载均衡目的。第二次再根据去掉key的随机前缀，按原key进行reduce处理。

这个方法进行两次mapreduce，性能稍差。

（2）增加Reducer，提升并行度
JobConf.setNumReduceTasks(int)

（3）实现自定义分区

根据数据分布情况，自定义散列函数，将key均匀分配到不同Reducer

mr任务慢的原因，map数量reduce数量设置不合理，reduce等待过久，小文件过多，spill次数过多，merge次数过多

1）数据倾斜：

可能是partition不合理，导致partition中的部分数据过多，部分数据过少，可通过数据分析，自定义分区进行处理

2）合理设置map，reduce数量：

两个都不能设置太多，也不能设置太少，太少，会导致task等待，延长处理时间。太多，会导致map，reduce任务间竞争，造成超时等错误

3）设置map，reduce共存

当任务过大时，可以开启map与reduce共存，当map运行到一定时间后，reduce也开始运行。减少等待时间。

4）合并小文件

在执行mr任务前将小文件合并，大量小文件会产生大量的map任务，增大map的装载次数，而任务的装载比较耗时，所以会拖慢运行速度。

5）减少spill次数

环形缓冲区，可以增加环形缓冲区大小和增加环形缓冲区数据溢写比例，增大触发spill内存上限，减少spill次数，从而减少磁盘IO。

6）减少merge次数

mapreduce两端合并文件数目，增大merge文件数目，从而缩短mr处理时间。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯