hadoop shuffle

转载

mb5fe328e8a0a04 2018-03-28 11:12:00

1 hadoop shuffle的地位

hadoop shuffle是map reduce算法的核心，是它连接了多个map和多个reduce，它将map的输出交给reduce作为输入。

2 hadoop shuffle工作在哪里

shuffle工作在map端

3 hadoop shuffle做了什么

它首先对所有的map的输出进行分区，对分区进行编号，来自不同map的具有相同编号的分区交给同一个reduce来处理。

它必须保证一点，来自所有map的相同的key的记录必须要被划分到同一个分区。原因很简单，reduce函数的输入就是一个key，对应该key的所有的values。

可见，是hadoop shuffle保证了mapreduce的编程模型。map只需要把输入分成新的key value即可，而reduce处理的对象是所有的map的输出中同一个key的所有values。

4 hadoop shuffle是怎样实现的

public int getPartition(K2 key, V2 value,
int numReduceTasks) {
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}

对key进行hash保证了，相同的key具有相同的hash值，然后对reduce task数目取模，那么相同的key肯定是有相同的分区id的。这样，所有的map的具有相同key的键值对记录都会被划分到同一个分区中，进而交给同一个reducer。

5 shuffle过程存在的问题

因为map位于不同的机器，所以reducer所在的机器必须要同它们通信才能把所有输入自己的分区数据远程拷贝到本机器上。

这样性能瓶颈就是网络数据的传输。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客