目录

一、问题分析

二、MapReduce的优化方法

1.数据输入

2.Map阶段

3.Reduce阶段

4.I/O传输

5.数据倾斜

三、常用的调优参数

1.资源相关参数

2.容错相关参数(MapReduce性能优化)

四、小文件优化方法

1.小文件带来的问题

2.Hadoop小文件解决方案


一、问题分析

为何MapReduce运行速度越来越慢

分析1:硬件角度,如CPU、内存、网络、磁盘等

分析2:从编码角度(IO操作)

1.数据倾斜

2.Map运行时间过长,使Reduce等待时间太久

3.Map和Reduce设置的不合理

4.不可切片的超大压缩文件过多

5.小文件过多

6.spill次数过多

7.归并排序次数过多

.......

二、MapReduce的优化方法

        按照MapReduce的流程进行分析

1.数据输入

        a.合并小文件,减少Map的任务量

        b.采用CombineTextInputFormat作为输入,解决小文件过多的问题

2.Map阶段

        a.减少溢出次数——调整mapredeuce.task.io.sort.mb和mapreduce.map.sort.spill.percent参数值来增大溢出内存值,减少溢出次数

        b.减少归并次数——调整mapredeuce.task.io.sort.factor参数,增大归并文件的数目,减少归并的次数来缩短MR的时间

        c.在业务逻辑合理的范围内在Map阶段之后采用combiner处理

3.Reduce阶段

        a.合理设置Map和Reduce数——如果设置太少,会导致Task等待,延长处理时间;太多的话会导致Map和Reduce任务间竞争资源,造成处理超时。

        b.设置Map和Reduce共存——调整mapreduce.job.reduce.slowstart.completemaps参数,使Map运行一定程度后Reduce也开始运行,减少时间。

        c.规避使用Reduce:Reduce连接数据集会造成大量网络消耗。

        d.合理设置Reduce端的Buffer:在默认情况下,数据达到一定的阈值就会将Buffer中的数据写入到磁盘,Reduce从磁盘读取数据,因此可以通过设置mapreduce.reduce.input.buffer.percent参数值使Buffer中的数据可以直接传输到Reduce。参数值默认为0,当大于0时,会保存指定比例的内存读取Buffer中的数据直接给Reduce,减少了IO开销。

4.I/O传输

        a.采用数据压缩

        b.使用SequenceFile二进制文件

5.数据倾斜

数据倾斜问题

        a.数据频率倾斜——某一个区域的数据量要远远大于其他区域

        b.数据大小倾斜——部分记录的大小远远大于平均值

减少数据倾斜的方法

        a.抽样和范围分区

                通过对原始数据进行抽样得到的结果集来预设分区的边界值。

        b.自定义分区

        c.Combiner

        d.采用Map Join,避免使用Reduce Join

三、常用的调优参数

1.资源相关参数

(1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)

配置参数

参数说明

mapreduce.map.memory.mb

一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。

mapreduce.reduce.memory.mb

一个ReduceTask可使用的资源上限(单位:MB),默认为1024。如果ReduceTask实际使用的资源量超过该值,则会被强制杀死。

mapreduce.map.cpu.vcores

每个MapTask可使用的最多cpu core数目,默认值: 1

mapreduce.reduce.cpu.vcores

每个ReduceTask可使用的最多cpu core数目,默认值: 1

mapreduce.reduce.shuffle.parallelcopies

每个Reduce去Map中取数据的并行数。默认值是5

mapreduce.reduce.shuffle.merge.percent

Buffer中的数据达到多少比例开始写入磁盘。默认值0.66

mapreduce.reduce.shuffle.input.buffer.percent

Buffer大小占Reduce可用内存的比例。默认值0.7

mapreduce.reduce.input.buffer.percent

指定多少比例的内存用来存放Buffer中的数据,默认值是0.0

(2)在YARN启动之前就配置在服务器的配置文件中才能生效(yarn-default.xml)

配置参数

参数说明

yarn.scheduler.minimum-allocation-mb

给应用程序Container分配的最小内存,默认值:1024

yarn.scheduler.maximum-allocation-mb

给应用程序Container分配的最大内存,默认值:8192

yarn.scheduler.minimum-allocation-vcores

每个Container申请的最小CPU核数,默认值:1

yarn.scheduler.maximum-allocation-vcores

每个Container申请的最大CPU核数,默认值:32

yarn.nodemanager.resource.memory-mb

给Containers分配的最大物理内存,默认值:8192

(3)Shuffle性能优化的关键参数,应在YARN启动之前就配置好(mapred-default.xml)

配置参数

参数说明

mapreduce.task.io.sort.mb

Shuffle的环形缓冲区大小,默认100m

mapreduce.map.sort.spill.percent

环形缓冲区溢出的阈值,默认80%

2.容错相关参数(MapReduce性能优化)

配置参数

参数说明

mapreduce.map.maxattempts

每个Map Task最大重试次数,一旦重试次数超过该值,则认为Map Task运行失败,默认值:4。

mapreduce.reduce.maxattempts

每个Reduce Task最大重试次数,一旦重试次数超过该值,则认为Map Task运行失败,默认值:4。

mapreduce.task.timeout

Task超时时间,经常需要设置的一个参数,该参数表达的意思为:如果一个Task在一定时间内没有任何进入,即不会读取新的数据,也没有输出数据,则认为该Task处于Block状态,可能是卡住了,也许永远会卡住,为了防止因为用户程序永远Block住不退出,则强制设置了一个该超时时间(单位毫秒),默认是600000(10分钟)。如果你的程序对每条输入数据的处理时间过长(比如会访问数据库,通过网络拉取数据等),建议将该参数调大,该参数过小常出现的错误提示是:“AttemptID:attempt_14267829456721_123456_m_000224_0 Timed out after 300 secsContainer killed by the ApplicationMaster.”。

四、小文件优化方法

1.小文件带来的问题

        HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。

        小文件过多,在进行MR计算时,会生成过多切片,需要启动过多的MapTask。每个MapTask处理的数据量小,导致MapTask的处理时间比启动时间还小,白白消耗资源。

2.Hadoop小文件解决方案

1) 小文件优化的方向:

(1)在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS。

(2)在业务处理之前,在HDFS上使用MapReduce程序对小文件进行合并。

(3)在MapReduce处理时,可采用CombineTextInputFormat提高效率。

(4)开启uber模式,实现jvm重用

1) Hadoop Archive

        是一个高效的将小文件放入HDFS块中的文件存档工具,能够将多个小文件打包成一个HAR文件,从而达到减少NameNode的内存使用

2) SequenceFile

        SequenceFile是由一系列的二进制k/v组成,如果为key为文件名,value为文件内容,可将大批小文件合并成一个大文件

3) CombineTextInputFormat

        CombineTextInputFormat用于将多个小文件在切片过程中生成一个单独的切片或者少量的切片。

4) 开启uber模式,实现jvm重用。

        默认情况下,每个Task任务都需要启动一个jvm 来运行,如果Task任务计算的数据量很小,我们可以让同一个Job的多个Task运行在一个Jvm中,不必为每个Task都开启一个Jvm.

        开启uber模式,在mapred-site.xml中添加如下配置

<!--  开启uber模式 -->
<property>
  <name>mapreduce.job.ubertask.enable</name>
  <value>true</value>
</property>

<!-- uber模式中最大的mapTask数量,可向下修改  --> 
<property>
  <name>mapreduce.job.ubertask.maxmaps</name>
  <value>9</value>
</property>
<!-- uber模式中最大的reduce数量,可向下修改 -->
<property>
  <name>mapreduce.job.ubertask.maxreduces</name>
  <value>1</value>
</property>
<!-- uber模式中最大的输入数据量,默认使用dfs.blocksize 的值,可向下修改 -->
<property>
  <name>mapreduce.job.ubertask.maxbytes</name>
  <value></value>
</property>