yarn架构
4 Hadoop综合调优
- 以上参数配置和优化方法已经满足了大部分调优
- 这里最终汇总一下从三个方向包括四个具体步骤Hadoop小文件优化
4.1 数据源头
在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS
4.2 数据存储
Hadoop Archive文件归档,高效的将小文件放入HDFS块中的文件存档工具,能够将多个小文件打包成一个HAR文件,从而达到减少NameNode的内存使用
4.3 计算
- CombineTextInputFormat用于将多个小文件在切片过程中生成一个单独的切片或者少量的切片。
- 开启uber模式.实现JVM重用:
让同一个Job的多个Task运行在一个JVM中,不必为每个Task都开启一个JVM。
开启uber模式:需在mapred-site.xml配置文件中添加以下参数:
1)开启uber模式:mapreduce.job.ubertask.enable
2)将最大的mapTask数量向下修改mapreduce.job.ubertask.maxmaps
3)将最大的reduce数量向下修改mapreduce.job.ubertask.maxreduces
4)将最大的输入数据量,默认使用dfs.blocksize 的值向下修改mapreduce.job.ubertask.maxbytes
该模式优势:
1)开启的容器数锐减:因为多个task共用一个容器
2)减少了开关jvm时间