hadoop框架怎么优化 hadoop优化有哪些方面

转载

AI独步天下 2023-07-24 14:14:39

文章标签 hadoop框架怎么优化 hadoop mapreduce 数据数据倾斜 文章分类 Hadoop 大数据

在想办法对Hadoop进行优化时，我们应该从Hadoop存在的一些问题来着手。

一、Hadoop的一些问题

MapReduce程序效率的瓶颈：

1、计算机性能

包括CPU、内存、磁盘健康、网络

2、I/O操作优化

（1）数据倾斜

（2）Map和Reduce数设置不合理

（3）Map运行时间太长，导致Reduce等待过久

（4）小文件过多

（5）大量的不可分块的超大文件

（6）Spill次数过多

（7）Merge次数过多

二、MapReduce的优化方法

MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。

2.1 数据输入 InputFormat阶段

(1）合并小文件:在执行MR任务前将小文件进行合并，大量的小文件会产生大量的Map任务，增大Map任务装载次数，而任务的装载比较耗时，从而导致MR运行较慢。

(2）采用CombineTextInputFormat来作为输入，解决输入端大量小文件场景。

2.2 Map阶段

(1)减少溢写(Spill）次数:通过调整io.sort.mb（内存大小）及sort.spill.percent（溢出比例）参数值，增大触发Spill的内存上限，减少Spill次数，从而减少磁盘IO。

(2)减少合并(Merge)次数:通过调整io.sort.factor参数，增大Merge的文件数目，减少Merge的次数，从而缩短MR处理时间。

(3）在Map之后，不影响业务逻辑前提下，先进行Combine处理，减少I/O。

2.3 Reduce阶段
(1)合理设置Map和Reduce数:两个都不能设置太少，也不能设置太多。太少，会导致Task等待，延长处理时间;太多，会导致Map、Reduce任务间竞争资源，造成处理超时等错误。

(2)设置Map、Reduce共存:调整slowstart.completedmaps参数，使Map运行到一定程度后， Reduce也开始运行，减少Reduce的等待时间。

(3）规避使用Reduce:因为Reduce在用于连接数据集的时候将会产生大量的网络消耗。

(4)合理设置Reduce端的Buffer:默认情况下，数据达到一个阈值的时候, Buffer中的数据就会写入磁盘，然后Reduce会从磁盘中获得所有的数据。也就是说, Buffer和Reduce是没有直接关联的，中间多次写磁盘-->读磁盘的过程，既然有这个弊端，那么就可以通过参数来配置，使得Bufer中的一部分数据可以直接输送到 Reduce ,从而减少IO开销︰mapreduce.reduce.input.bufer.percent，默认为0.0。当值大于0的时候，会保留指定比例的内存读Buffer中的数据直接拿给Reduce使用。这样一来，设置Buffer需要内存，读取数据需要内存，Reduce计算也要内存，所以要根据作业的运行情况进行调整。

2.4 I/O传输

1）采用数据压缩的方式，减少网络IO的的时间。安装Snappy和LZO压缩编码器。

2）使用SequenceFile二进制文件。

sequenceFile文件时Hadoop中一种特殊文件，它主要也是用来合并小文件的，只不过需要通过MR程序完成小文件的合并，其中sequenceFile文件需要通过SequenceFileOutputFormat输出数据。

注意：SequenceFile文件的特点：是以文件名为key，文件内容为value输出的