图解Spark和mapreducer在shuffle时的区别

原创

breakDawn 2022-09-26 10:21:10 博主文章分类：图解spark ©著作权

文章标签 mapreduce 键值 spark 文章分类 运维

©著作权归作者所有：来自51CTO博客作者breakDawn的原创作品，请联系作者获取转载授权，否则将追究法律责任

书中以经典的wordCount为例子
wordCount就是计算文本中a-z字母的个数，利用分布式计算的能力

mapreduce做wordCount

图解Spark和mapreducer在shuffle时的区别_spark

标红的地方就是关键点， mapreducer做map后直接落盘了，落盘后进行排序，排序完取出相同键的组发送，到resultTask做聚合计算。

其实不太懂mapreduce早期为什么这么做，是因为那时候还不知道怎么在内存和磁盘间切换吗？

图解Spark和mapreducer在shuffle时的区别_键值_02

标红的地方是一个关键点。

map后优先根据key存到内存中，并拆成1个个bucket， bucket就是之前提过的blockManager来管理。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯