1.如何能够让Map执行效率最高

尽量减少环形缓冲区flush的次数(减少IO 的使用)

  • 1、调大环形缓冲区的大小,将100M调更大。
  • 2、调大环形缓冲区阈值大的大小。
  • 3、对Map输出的数据进行压缩。(数据在压缩和解压的过程中会消耗CPU)

2.如何能够让Reduce执行效率最高

  • 尽量减少环形缓冲区flush的次数
  • 1尽量将所有的数据写入内存,在内存中进行计算。

3.集群调优核心思路

在网络带宽、磁盘IO是瓶颈的前提下:

  • 能不使用io 和网络,就不使用。在必须使用的情况下,能少用IO 网络就少用,
  • 所有的能够减少网络开销的、减少IO使用的可选项,都可以作为集群调优的可选项。(软件层面(操作系统----集群层面),硬件层面,网络层面)