1、Shuffle

 [从mapTask到reduceTask: Mapper -> Partitioner ->Combiner -> Sort ->Reducer]

mapreduce大数据课程设计 大数据mapreduce过程_java

mapper对job任务进行键值对构建并写入环形内存缓冲区[缓冲区满了,map停止直到全写入磁盘],大小100MB(io.sort.mb),一旦达到0.8(io.sort.spill.percent)读入量,即将内存内容经过partitioner分区和sort排序,和combiner合并写入到磁盘一个溢写出文件目录下(mapred.local.dir)。当数据读取完成,将磁盘所有溢出文件合并成一个大文件(同样是经过分区和排序后的文件)。将映射关系提交给AppMaster。

reducer通过心跳机制到AppMaster获取映射关系,再通过Http方式得到文件分区,不同区号文件进入不同reducer,再合并排序进行reduce处理。

Mapper:输出键值对集合(函数setup、map、cleanup、run);

Partitioner:分区,并确保分区号大于或等于reducer的个数。对Mapper结果进行计算确定交给哪个reducer来计算;

Combiner:在map端执行减少传输到reducer的数据量,看作本地的reducer,实现本地key的归并;但combiner不能改变key/value的类型,适用于不影响最终结果场景(累加、最大值);

Sort:按照key值排序。

2、hadoop序列化类型(全都继承Writable)

Text:类似于java中的String

基础Writable对象(IntWritable\LongWritable\ BooleanWritable\ ByteWritable\...)

自定义序列化对象

(实现writable接口;

同时实现序列化函数write和反序列化函数readFiles,但写和读顺序和类型要一致;

重写tostring方法,否则输出结果为类全名+hascode值

需要无参构造方法)

3、MapReduce任务实现流程

Client将JAR包信息发送到RM(PRC通信)

RM返回一个jar包存储路径(固定)和一个jobID

Client对路径进行拼接,通过FileSystem将jar包写入到hdfs中(默认情况下jar包写10份)

Client再将jobID,jar包地址,其他配置发送给RM

RM将任务放入调度器(默认先进先出),NM通过心跳机制获取Mapreduce任务,在HDFS上下载JAR包,启动子进程运行任务

(1)、具体执行过程如下:

 

mapreduce大数据课程设计 大数据mapreduce过程_jar包_02

函数中主体为submit(),先进行connect(),再使用submitter进行任务调度。

A.

mapreduce大数据课程设计 大数据mapreduce过程_jar包_03

初始化Job持有的cluster对象引用(cluster引用中持有ClientProtocol对象引用)。

Ps: ClientProtocol:RPCserver的代理对象,也可以理解为RM进程对象)。定义了客户端与nameNode间的接口,客户端对文件系统的所有操作都需要通过这个接口,同时客户端读、写文件等操作也需要先通过这个接口与NamenodeRPC通信后后,再进行数据块的读出和写入操作。

B.

mapreduce大数据课程设计 大数据mapreduce过程_大数据_04

通过提交器提交job任务,返回一个PATH

mapreduce大数据课程设计 大数据mapreduce过程_java_05

也返回一个Job的ID

mapreduce大数据课程设计 大数据mapreduce过程_数据结构与算法_06

拼接上述PATH和JobID

mapreduce大数据课程设计 大数据mapreduce过程_mapreduce大数据课程设计_07

将jar包信息拷贝到HDFS中  job信息,存放job地址和副本数量

mapreduce大数据课程设计 大数据mapreduce过程_jar包_08

提交到服务端RM  jobid、jar包地址,其他配置信息,通过RPC通信

mapreduce大数据课程设计 大数据mapreduce过程_数据结构与算法_09