MapReduce跑得慢的原因
MapReduce程序的效率瓶颈在于两个方面:
一、 计算机性能
- CPU、内存、磁盘健康、网络
二、 I/O操作
- 数据倾斜
- map和reduce数量设置不合理
- reduce等待时间过久
- 小文件过多
- 大量不可拆分的超大文件
- spill次数过多
- merge次数过多
我们优化的重点是I/O操作
MapReduce优化方法
一、数据输入
- 合并小文件:在执行mr任务前将小文件进行合并,因为大量的小文件会产生大量的map任务,增大map任务装载次数,而任务的装载比较耗时,从而导致mr运行较慢
- 采用ConbinFileInputFormat来作为输入,解决输入端大量小文件场景
二、map阶段
- 减少spill次数:通过调整
io.sort.mb
及sort.spill.percent
参数值,增大触发spill的内存上限,减少spill次数,从而减少磁盘IO - 减少merge次数:通过调整
io.sortfactor
参数,增大merge的文件数目,减少merge的次数,从而缩短mr处理时间 - 在map之后先进性combine处理,减少I/O
三、reduce阶段
- 合理设置map和reduce数,两个都不能设置太少,也不能设置过多,设置太少会导致task等待,延长处理时间,设置太多会导致map、reduce任务间竞争资源导致处理超时
- 设置map、reduce共存:调整
slowstart.completedmaps
参数,使map运行到一定程度后,reduce也开始运行,减少reduce的等待时间。 - 规避使用reduce,因为reduce在用于连接数据集的时候将会产生大量的网络消耗
- 合理设置reduce端的buffer。默认情况下,数据达到一个阈值的时候,buffer中的数据就会写入磁盘,然后reduce会从磁盘中获得所有的数据。也就是说,buffer和reduce是没有直接关联的,中间多了一个写磁盘->读磁盘的过程,既然有这个弊端,那么就可以通过参数来配置,使得buffer中的一部分数据可以直接输送到reduce,从而减少I/O开销:
mapred.job.reduce.input.buffer.percent
,默认为0.0.当值大于0的时候,会保留指定比例的内存读buffer中的数据直接拿给reduce使用。这样一来,设置buffer需要内存,读取数据需要内存,reduce计算也要内存,所以要根据作业的运行情况进行调整
四、IO传输
- 采用数据压缩的方式,减少网路IO的时间。安装Snappy和LZOP压缩编码器
- 使用SequenceFile二进制文件
五、数据倾斜问题
- 数据倾斜现象:数据频率倾斜——某一个区域的数据量要远远大于其他区域 / 数据大小倾斜:部分记录的大小远远大于平均值
- 如何收集倾斜数据:在reduce方法中加入记录map输出件的详细情况的功能
public static final String MAX_VALUES = "skew.maxvalues";
private int maxValueThreshold;
@Override
public void configure(JobConf job) {
maxValueThreshold = job.getInt(MAX_VALUES, 100);
}
@Override
public void reduce(Text key, Iterator<Text> values,
OutputCollector<Text, Text> output,
Reporter reporter) throws IOException {
int i = 0;
while (values.hasNext()) {
values.next();
i++;
}
if (++i > maxValueThreshold) {
log.info("Received " + i + " values for key " + key);
}
}
- 减少数据倾斜的方法:
- 抽样和范围分区:可以通过对原始数据进行抽样得到的结果集来预设分区的边界值
- 自定义分区:另一个抽样和范围分区的替代方案是基于输出键的背景知识进行自定义分区。例如:如果map输出键的单次来源于一本书,其中大部分必然是省略词(stopword)。那么就可以将自定义分区将这部分省略词发送给固定的一部分reduce实例。而其他的都发送给剩余的reduce实例
- Combine:使用Combine可以大量减少数据频率倾斜和数据大小倾斜。在可能的情况下,combine的目的就是聚合并精简数据