如图所示,上图就是mapreduce的编程模型。

MapReduce的流程分为5个阶段:

输入文件 > Map > 中间文件 > Reduce阶段 > 输出文件

  • 步骤1 启动子进程

用户程序会启动两类子进程。第一类是Master子进程,负责任务分配与状态管理,Master子进程全局只有一个。第二类子进程是worker进程,worker子进程有两个阶段,一个阶段是Map阶段,一个阶段是Reduce阶段。worker进程会先处于Map阶段,等所有的Map任务都完成之后,再进入Reduce阶段。

  • 步骤2 任务分配

包括给map阶段的worker分配任务,以及给reduce阶段的worker分配任务。分配任务时,由worker通过rpc来主动调用Master的任务分配函数。由于worker是先执行Map,再执行Reduce,所以在分配任务时,先分配Map任务,待Map任务执行完成之后,再分配Reduce任务。

  • 步骤3 读取数据

Map阶段是将一组键值对,转换成另外一组键值对。所以先需要将输入文件读取进内存,转换成键值对的格式,然后将该键值对组给Map函数,得到另外一组键值对 输出。

  • 步骤4 中间文件写入

Map阶段的输出会被保存下来,保存到中间文件中。

  • 步骤5 读取中间文件

Reduce阶段也是将一组键值对转换成另外一组键值对。所以需要先将Map阶段产生的中间文件读取进内存,转成键值对形式。

  • 步骤6 输出

经过Reduce阶段,产生最终的输出,将输出写入到输出文件。

上述过程中,对文件的读取与写入,都是分布式的,如GFS等