MapReduce编程模型

关注 mob604756f52321

MapReduce编程模型

原创

mob604756f52321 2021-03-25 12:50:18 ©著作权

文章标签 Java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob604756f52321的原创作品，请联系作者获取转载授权，否则将追究法律责任

如图所示，上图就是mapreduce的编程模型。

MapReduce的流程分为5个阶段：

输入文件 > Map > 中间文件 > Reduce阶段 > 输出文件

步骤1 启动子进程：

用户程序会启动两类子进程。第一类是Master子进程，负责任务分配与状态管理，Master子进程全局只有一个。第二类子进程是worker进程，worker子进程有两个阶段，一个阶段是Map阶段，一个阶段是Reduce阶段。worker进程会先处于Map阶段，等所有的Map任务都完成之后，再进入Reduce阶段。

步骤2 任务分配：

包括给map阶段的worker分配任务，以及给reduce阶段的worker分配任务。分配任务时，由worker通过rpc来主动调用Master的任务分配函数。由于worker是先执行Map，再执行Reduce，所以在分配任务时，先分配Map任务，待Map任务执行完成之后，再分配Reduce任务。

步骤3 读取数据

Map阶段是将一组键值对，转换成另外一组键值对。所以先需要将输入文件读取进内存，转换成键值对的格式，然后将该键值对组给Map函数，得到另外一组键值对输出。

步骤4 中间文件写入

Map阶段的输出会被保存下来，保存到中间文件中。

步骤5 读取中间文件

Reduce阶段也是将一组键值对转换成另外一组键值对。所以需要先将Map阶段产生的中间文件读取进内存，转成键值对形式。

步骤6 输出

经过Reduce阶段，产生最终的输出，将输出写入到输出文件。

上述过程中，对文件的读取与写入，都是分布式的，如GFS等

赞
收藏
评论
分享
举报

上一篇：多层神经网络原理推导

下一篇：实现一个MapReduce框架

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册