hadoop业务流程 hadoop执行流程图

转载

bingfeng 2023-09-22 13:02:51

文章标签 hadoop业务流程 hadoop mapreduce 数据归并排序 文章分类 Hadoop 大数据

一、流程示意图

1、MapReduce流程示意图1

hadoop业务流程 hadoop执行流程图_hadoop业务流程

2、MapReduce流程示意图2

hadoop业务流程 hadoop执行流程图_hadoop业务流程_02

二、流程示意图详解

流程详解
上面的流程是整个MapReduce最全工作流程，但是Shuffle过程只是从第7步开始到第16步结束，具体Shuffle过程详解，如下：
1） MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中
2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件
3）多个溢出文件会被合并成大的溢出文件
4）在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序
5） ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据
6） ReduceTask会取到同一个分区的来自不同MapTask的结果文件，ReduceTask会将这些文件再进行合并（归并排序）
7）合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程（从文件中取出一个一个的键值对Group，调用用户自定义的reduce()方法）
注意
Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快。
1）缓冲区的大小可以通过参数调整，参数：io.sort.mb默认100M。
源码解析流程

context.write(k, NullWritable.get());
	output.write(key, value);
		collector.collect(key, value,partitioner.getPartition(key, value, partitions));
			HashPartitioner();
		collect()
			close()
				collect.flush()
					sortAndSpill()
						sort()   QuickSort
					mergeParts();
	
				collector.close();