hadoop 数据倾斜是如何产生的及解决方案 hadoop发生数据倾斜的原因

转载

mob6454cc613c41 2023-10-03 11:45:53

文章标签 java linux 服务器数据倾斜自定义 文章分类 Hadoop 大数据

项目场景：

在对爬虫过来的数据进行数据分析时，出现OOM问题

问题描述：

数据倾斜现象

数据频率倾斜——某一个区域的数据量要远远大于其他区域。
数据大小倾斜——部分记录的大小远远大于平均值。

一般发生在reduce端，其他任务10s以内就执行完了，有一个任务执行了50分钟还没有执行完，程序卡在99%不动了，甚至爆出了内存溢出。

hadoop 数据倾斜是如何产生的及解决方案 hadoop发生数据倾斜的原因_linux

原因分析：

（1）一般是由于大量的key为空导致的

（2）导致数据倾斜的key大量分布在相同的mapper，map端解决：

具体步骤如下：

提前在map进行combine，减少传输的数据量
在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，较少了shuffle过程中传输的数据量，以及Reducer端的计算量,如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。

（3）导致数据倾斜的key大量分布在不同的mapper，reduce端解决：

生产环境，可以直接过滤掉空值，因为key为空的数据会进入到一个reduce；如果想保留空值，就自定义分区，将空值加随机数打散。最后再二次聚合。
自定义分区具体步骤如下：

第一次在map阶段对那些导致了数据倾斜的key加上1到n的随机前缀（null+1，null+2，...），这样本来相同的key也会被分到多个Reducer中进行局部聚合，数量就会大大降低。
	第二次mapreduce，去掉key的随即前缀，进行全局聚合。
	思想：二次mr，第一次将key随机散列到不同reducer进行处理达到负载均衡目的，第二次再根据去掉key的随即前缀，按原来key进行reduce处理。这个方法进行两次mapreduce，性能稍差。

（4）设置多个reduce个数

增加Reducer，提升并行度 JobConf.setNumReduceTasks(int)

解决方案：

在map端combiner，reduce端自定义分区，同时提高reduce个数

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：设备驱动架构设备驱动包括哪几种

下一篇：java 继承变量名一样类型不一样 java 继承同名变量

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hadoop 数据倾斜是如何产生的及解决方案 hadoop发生数据倾斜的原因

hadoop 数据倾斜是如何产生的及解决方案 hadoop发生数据倾斜的原因

项目场景：

问题描述：

数据倾斜现象

原因分析：

（1）一般是由于大量的key为空导致的

（2）导致数据倾斜的key大量分布在相同的mapper，map端解决：

（3）导致数据倾斜的key大量分布在不同的mapper，reduce端解决：

（4）设置多个reduce个数

解决方案：

51CTO博客