combine可以理解为是在map端的reduce的操作 对单个map任务的输出结果数据进行合并的操作
作用:
减少传输到Reduce中的数据量。它主要是为了削减Mapper的输出从而减少网络带宽和Reducer之上的负载
缺点:
combine是作为一个优化手段,可选项,不是所有的MR程序都适合combine
适合的场景:比如求最大值,求和,不适合比如求中间值