---恢复内容开始---

shuffle和排序

过程图如下:

mapreduce清洗hdfs中的数据 hadoop的mapreduce的shuffle过程_数据

 

MapReduce确保每个reduce的输入都按键排序,系统执行排序的过程——将map输出作为输入传给reduce——成为shuffle,理解shuffle的工作原理,有助于MapReduce程序的优化,因为shuffle属于不断被优化和改进的代码库的一部分,shuffle是MapReduce的心脏,是奇迹发生的地方

map端

  map函数开始产生输出时,并不是简单的将它写到磁盘,这个过程非常复杂,它是利用缓冲的方式写到内存,并处于效率的考虑进行预排序。

  每个map任务都有一个环形内存缓冲区,用于存储任务的输出,默认情况下,缓冲区的大小为100MB,此值可以通过改变io.sort.mb属性来调整,一旦缓冲区内容达到阀值(io.sort.spill.percent,默认为80%),一个后台线程便开始把内容溢写到磁盘中,在写磁盘过程中,map输出继续被写到缓冲区,但如果再次期间缓冲区被填满,map会阻塞直到写磁盘过程完成。

  写磁盘将按轮询方式写到mapred.local.dir属性指定的作业特定子目录中的目录中

  在写磁盘之前,线程首先根据数据最终要传送到的reducer把数据划分成相应的分区(partition)。在每个分区中,后台线程按键进行内排序,如果有一个combiner,它会在排序后的输出上运行。

  一旦内存缓冲区达到溢出写的阀值,就会新建一个溢出写文件,因此在map写完其最后一个输出记录之前,会有几个溢出写的文件 ,在任务完成之前,溢出写文件被合并成一个已分区且已排序的输出文件,配置属性io.sort.factor控制着一次最多能合并多少流,默认值是10.

  如果已指定combiner,并且溢出写次数至少为3(min.num.spill.for.combiner属性的取值)时,则combiner就会在输出文件写到磁盘之前运行,combiner可以再输入上反复运行,但并不影响最终结果,运行combiner的意义在与使map的输出更紧凑,使得写到本地磁盘和传给reducer的数据更少。

  写磁盘时压缩 map 输出往往是个很好的主意,因为这样会让写磁盘的速度更快,节约磁盘空间,并且减少传给 reducer 的数据量。默认情况下,输出是不压缩的,但只要将 mapred.compress map.output 设置为 true ,

  reducer通过http方式得到输出文件的分区,用于文件分区的工作线程的数量由任务的tracker.http.threads属性控制,此设置针对每个tasktracker,而不是针对每个map任务槽,默认值是40,在运行大型作业的大型集群上,此值可以根据需要而增加

reducer端

  现在转到处理过程的reduce部分,map输出文件位于map任务的tasttracker的本地磁盘上,现在tasktracker需要为分区文件运行reduce任务,更进一步,reduce任务需要集群上若干个map任务的输出作为其特殊的分区文件,每个map任务的完成时间可能不同,因此只要有一个任务完成,reduce任务就开始复制其输出,这就是reduce任务的复制阶段,reduce任务有少量复制线程,因此能够并行取得map输出,默认值是5个线程,这个默认值可以通过mapred.reduce.parallel.copies属性来改变。

  reducer如何知道要从哪个tasktracker取得map输出呢?

  map任务成功完成后,它们会通知其父tasktracker状态已更新,然后tasktracker通过心跳机制进而通知jobtracker。jobtracker知道map输出和tasktracker之间的映射关系,reducer中一个线程定期询问jobtracker以方便获取map的输出位置,直到它获得所有输出位置。由于reducer可能失败,因此,tasktracker并没有在第一个reducer检索到map输出时就立即从磁盘上删除它们,相反,tasktracker会等待,直到jobtrackr告知它可以删除map输出,这是作业完成后才执行的。

  如果map输出相当小,则会被复制到reduce tasktraker的内存(缓冲区大小由mapred.job.shuffle.merge.percent决定)或达到map输出阀值(由mapred.inmem.merge.threshld控制),则合并后溢写到磁盘中。

  随着磁盘上的副本的增多,后台线程会将它们合并为更大的,排序好的文件。这会为后面的合并节省一些时间,注意,为了合并,压缩的map输出(通过map任务)都必须在内存中被解压缩。

  复制完所有map输出被复制期间,reduce任务进去合并阶段,这个阶段将合并map输出,维持其顺序排序,这是循环进行的,比如有50个map输出,而合并因子(merge factor)是10(10位默认值,由io.sort.factor属性设置),合并将进行五次,每次将10个文件合并成一个文件,因此最后有5个中间文件。

  在最后阶段,即reduce阶段,直接把数据输入reduce函数,从而省略了一次磁盘往返形成,并没有将这5个文件合并成一个已排序的文件作为最后一趟,最后的合并既可能来自内存和也可能来自磁盘片段。