hadoop mapreduce 参数 hadoop的mapreduce模型

转载

epeppanda 2023-08-30 15:38:06

文章标签 hadoop mapreduce 参数大数据 hadoop mapreduce 键值对 文章分类 Hadoop 大数据

MapReduce是一种分布式计算模型，用以进行大数据量的计算。其中Map，对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce，则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。

hadoop mapreduce 参数 hadoop的mapreduce模型_hadoop

hadoop mapreduce 参数 hadoop的mapreduce模型_mapreduce_02

JobTracker：Master节点，只有一个，管理所有作业，作业/任务的监控、错误处理等；将任务分解成一系列任务，并分派给TaskTracker。

TaskTracker：Slave节点，运行Map Task和Reduce Task；并与JobTracker交互，汇报任务状态。

Map Task：解析每条数据记录，传递给用户编写的map(),并执行，将输出结果写入本地磁盘(如果为map-only作业，直接写入HDFS)。

<1> 读取输入文件内容，解析成key、value对。对输入文件的每一行，解析成key、value对。每一个键值对调用一次map函数。

<2> 写自己的逻辑，对输入的key、value处理，转换成新的key、value输出。

<3> 对输出的key、value进行分区。

<4> 对不同分区的数据，按照key进行排序、分组。相同key的value放到一个集合中。

<5> (可选)分组后的数据进行归约。

Reducer Task：从Map Task的执行结果中，远程读取输入数据，对数据进行排序，将数据按照分组传递给用户编写的reduce函数执行。

<1> 对多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点。

<2> 对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑，对输入的key、value处理，转换成新的key、value输出。

<3> 把reduce的输出保存到文件中。

hadoop mapreduce 参数 hadoop的mapreduce模型_mapreduce_03

(1)主从结构

•主节点，只有一个: JobTracker

•从节点，有很多个: TaskTrackers

(2)JobTracker 负责：

•接收客户提交的计算任务

•把计算任务分给TaskTrackers执行

•监控TaskTracker的执行情况

(3)TaskTrackers负责：

•执行JobTracker分配的计算任务

(4)MapRduce执行流程

Mapper 任务的执行过程

MapReduce 运行的时候，会通过Mapper 运行的任务读取HDFS 中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer 任务会接收Mapper 任务输出的数据，作为自己的输入数据，调用自己的方法，最后输出到HDFS 的文件中。整个流程如图

hadoop mapreduce 参数 hadoop的mapreduce模型_hadoop mapreduce 参数_04

第一阶段是把输入文件按照一定的标准分片(InputSplit)，每个输入片的大小是固定的。默认情况下，输入片(InputSplit)的大小与数据块(Block)的大小是相同的。如果数据块(Block)的大小是默认值64MB，输入文件有两个，一个是32MB，一个是72MB。那么小的文件是一个输入片，大文件会分为两个数据块，那么是两个输入片。一共产生三个输入片。每一个输入片由一个Mapper 进程处理。这里的三个输入片，会有三个Mapper 进程处理。

　　第二阶段是对输入片中的记录按照一定的规则解析成键值对。有个默认规则是把每一行文本内容解析成键值对。“键”是每一行的起始位置(单位是字节)，“值”是本行的文本内容。

　　第三阶段是调用Mapper 类中的map 方法。第二阶段中解析出来的每一个键值对，调用一次map 方法。如果有1000 个键值对，就会调用1000 次map 方法。每一次调用map 方法会输出零个或者多个键值对。map具体的工作做有我们自己来决定，我们要对map函数进行覆盖，封装我们要进行的操作来实现我们最终的目的。

　　第四阶段是按照一定的规则对第三阶段的每个Mapper任务输出的键值对进行分区。比较是基于键进行的。比如我们的键表示省份(如北京、上海、山东等)，那么就可以按照不同省份进行分区，同一个省份的键值对划分到一个区中。默认是只有一个区。分区的数量就是Reducer 任务运行的数量。默认只有一个Reducer 任务。

　　第五阶段是对每个分区中的键值对进行排序。首先，按照键进行排序，对于键相同的键值对，按照值进行排序。比如三个键值对<2,2>、<1,3>、<2,1>，键和值分别是整数。那么排序后的结果是<1,3>、<2,1>、<2,2>。如果有第六阶段，那么进入第六阶段；如果没有，直接输出到本地的linux 文件中。

第六阶段是对数据进行归约处理，也就是reduce 处理。对于键相等的键值对才会调用一次reduce 方法。经过这一阶段，数据量会减少。归约后的数据输出到本地的linxu 文件中。本阶段默认是没有的，需要用户自己增加这一阶段的代码。

Reducer执行过程

　每个Reducer 任务是一个java 进程。Reducer 任务接收Mapper 任务的输出，归约处理后写入到HDFS 中，可以分为如图2.3 所示的几个阶段

hadoop mapreduce 参数 hadoop的mapreduce模型_键值对_05