ha hadoop 优化 hadoop优化操作

转载

mob6454cc6f6c1c 2023-07-12 10:55:07

文章标签 ha hadoop 优化 hadoop 插入图片数据数据倾斜 文章分类 Hadoop 大数据

1 .MapReduce 跑的慢的原因

1.1主要有两点：

计算机性能
CPU、内存、磁盘、网络
IO 操作优化

数据倾斜
2）Map 和 Reduce 数目设置不合理
3）Map 时间过长，导致 Reduce 等待太久
4）小文件过多
5）大量的不可分块的超大文件
6）spill（溢写）次数过多
7）Merge 次数过多
1.2 MapReduce 优化方法

主要从六个方面考虑：数据输入，Map 阶段、Reduce 阶段、IO传输阶段、数据倾斜问题和参数调优。
1.2.1 数据输入
（1）合并小文件：在执行MR 任务前将小文件进行合并，大量的小文件会产生大量的map 任务，增大 map 任务装载次数，而任务的装在比较耗时，从而导致 mr 运行很慢。
合并小文件的方法：
（1）在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS。
（2）在业务处理之前，在HDFS上使用MapReduce程序对小文件进行合并。
（3）在MapReduce处理时，可采用CombineTextInputFormat提高效率。

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200629221505801.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIzNjA5NjAz,size_10,color_FFFFFF,t_30

ha hadoop 优化 hadoop优化操作_hadoop

)

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200629221555685.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIzNjA5NjAz,size_16,color_FFFFFF,t_30

ha hadoop 优化 hadoop优化操作_ha hadoop 优化_02

)

1.2.2 map阶段

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200629221751287.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIzNjA5NjAz,size_16,color_FFFFFF,t_30

ha hadoop 优化 hadoop优化操作_数据倾斜_03

)

1.2.3 Reduce 阶段

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200629221914746.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIzNjA5NjAz,size_16,color_FFFFFF,t_30

ha hadoop 优化 hadoop优化操作_数据_04

)

1.2.4 I/O传输

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200629222055387.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIzNjA5NjAz,size_16,color_FFFFFF,t_30

ha hadoop 优化 hadoop优化操作_数据倾斜_05