如图所示,上图就是mapreduce的编程模型。
MapReduce的流程分为5个阶段:
输入文件 > Map > 中间文件 > Reduce阶段 > 输出文件
- 步骤1 启动子进程:
用户程序会启动两类子进程。第一类是Master子进程,负责任务分配与状态管理,Master子进程全局只有一个。第二类子进程是worker进程,worker子进程有两个阶段,一个阶段是Map阶段,一个阶段是Reduce阶段。worker进程会先处于Map阶段,等所有的Map任务都完成之后,再进入Reduce阶段。
- 步骤2 任务分配:
包括给map阶段的worker分配任务,以及给reduce阶段的worker分配任务。分配任务时,由worker通过rpc来主动调用Master的任务分配函数。由于worker是先执行Map,再执行Reduce,所以在分配任务时,先分配Map任务,待Map任务执行完成之后,再分配Reduce任务。
- 步骤3 读取数据
Map阶段是将一组键值对,转换成另外一组键值对。所以先需要将输入文件读取进内存,转换成键值对的格式,然后将该键值对组给Map函数,得到另外一组键值对 输出。
- 步骤4 中间文件写入
Map阶段的输出会被保存下来,保存到中间文件中。
- 步骤5 读取中间文件
Reduce阶段也是将一组键值对转换成另外一组键值对。所以需要先将Map阶段产生的中间文件读取进内存,转成键值对形式。
- 步骤6 输出
经过Reduce阶段,产生最终的输出,将输出写入到输出文件。
上述过程中,对文件的读取与写入,都是分布式的,如GFS等