MapReduce中排序发生在哪几个阶段？

原创

大数据面试宝典 2021-12-24 15:17:40 博主文章分类：大数据 ©著作权

©著作权归作者所有：来自51CTO博客作者大数据面试宝典的原创作品，请联系作者获取转载授权，否则将追究法律责任

一个MapReduce作业由Map阶段和Reduce阶段两部分组成，这两阶段会对数据排序，从这个意义上说，MapReduce框架本质就是一个Distributed Sort。

在Map阶段，Map Task会在本地磁盘输出一个按照key排序(采用的是快速排序)的文件(中间可能产生多个文件，但最终会合并成一个)，在Reduce阶段，每个ReduceTask会对收到的数据排序，这样数据便按照key分成了若干组，之后以组为单位交给reduce方法处理。

很多人的误解在Map阶段，如果不使用Combiner便不会排序，这是错误的，不管你用不用Combiner，MapTask均会对产生的数据排序(如果没有ReduceTask，则不会排序，实际上Map阶段的排序就是为了减轻Reduce端排序负载)。

由于这些排序是MapReduce自动完成的，用户无法控制，因此，在hadoop1.x中无法避免，也不可以关闭，但hadoop2.x是可以关闭的(将reducetask设置为0)。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯