文章目录
返回顶部
一、MapReduce跑得慢的原因
MapReduce程序效率的瓶颈在于两点:
- 1.计算机性能
- 2.操作优化
返回顶部
二、MapReduce优化方法
※ 数据输入
返回顶部
※ Map阶段
返回顶部
※ Reduce阶段
返回顶部
※ I/O传输
返回顶部
※ 数据倾斜问题
返回顶部
※ 常用的调优参数
- 用户自己的MR应用程序中配置就可以生效(mapred-default.xml)
- 应该在YARN启动之前就配置在服务器的配置文件中才能生效(yarn-default.xml)
- Shuffle性能优化的关键参数,应在YARN启动之前就配置好(mapred-default.xml)
- 容错相关参数(MapReduce性能优化)
返回顶部
HDFS小文件优化方法
※ HDFS小文件弊端
- HDFS上每个文件都要在NameNode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用NameNode的内存空间,另一方面就是索引文件过大使得索引速度变慢。
返回顶部
※ HDFS小文件解决方案
小文件的优化无非以下几种方式:
返回顶部