MapReduce编程入门 mapreduce编程思想

转载

mob64ca140dc73b 2024-04-09 17:06:31

文章标签 MapReduce编程入门 hadoop spark hive 文章分类 架构后端开发

MapReduce编程入门 mapreduce编程思想_MapReduce编程入门

1）分布式的运算程序往往需要分成至少2个阶段。

2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。

3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。

4）MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。

1.概念

Job(作业) : 一个MR程序称为一个Job

MRAppMaster（MR任务的主节点）: 一个Job在运行时，会先启动一个进程，这个进程为 MRAppMaster。

负责Job中执行状态的监控，容错，和RM申请资源，提交Task等！

Task(任务)： Task是一个进程！负责某项计算！

Map(Map阶段): Map是MapReduce程序运行的第一个阶段！

Map阶段的目的是将输入的数据，进行切分。将一个大数据，切分为若干小部分！

切分后，每个部分称为1片(split)，每片数据会交给一个Task（进程）进行计算！

Task负责是Map阶段程序的计算，称为MapTask!

在一个MR程序的Map阶段，会启动N（取决于切片数）个MapTask。每个MapTask是并行运行！

Reduce(Reduce阶段)： Reduce是MapReduce程序运行的第二个阶段(最后一个阶段)！

Reduce阶段的目的是将Map阶段，每个MapTask计算后的结果进行合并汇总！得到最终结果！

Reduce阶段是可选的！

Task负责是Reduce阶段程序的计算，称为ReduceTask!

一个Job可以通过设置，启动N个ReduceTask，这些ReduceTask也是并行运行！

每个ReduceTask最终都会产生一个结果！

2.MapReduce中常用的组件

①Mapper: map阶段核心的处理逻辑

②Reducer: reduce阶段核心的处理逻辑

③InputFormat: 输入格式

MR程序必须指定一个输入目录，一个输出目录！

InputFormat代表输入目录中文件的格式！

如果是普通文件，可以使用FileInputFormat.

如果是SequeceFile（hadoop提供的一种文件格式），可以使用SequnceFileInputFormat.

如果处理的数据在数据库中，需要使用DBInputFormat

④RecordReader: 记录读取器

RecordReader负责从输入格式中，读取数据，读取后封装为一组记录(k-v)!

⑤OutPutFormat: 输出格式

OutPutFormat代表MR处理后的结果，要以什么样的文件格式写出！

将结果写出到一个普通文件中，可以使用FileOutputFormat！

将结果写出到数据库中，可以使用DBOutPutFormat！

将结果写出到SequeceFile中，可以使用SequnceFileOutputFormat

⑥RecordWriter: 记录写出器

RecordWriter将处理的结果以什么样的格式，写出到输出文件中！

在MR中数据的流程：

①InputFormat调用RecordReader，从输入目录的文件中，读取一组数据，封装为keyin-valuein对象

②将封装好的key-value，交给Mapper.map()------>将处理的结果写出 keyout-valueout

③ReduceTask启动Reducer，使用Reducer.reduce()处理Mapper写出的keyout-valueout

④OutPutFormat调用RecordWriter，将Reducer处理后的keyout-valueout写出到文件

⑦Partitioner: 分区器
分区器，负责在Mapper将数据写出时，将keyout-valueout，为每组keyout-valueout打上标记，进行分区！
目的：一个ReduceTask只会处理一个分区的数据！

MapReduce的运行流程概述

需求：统计/hello目录中每个文件的单词数量

a-p开头的单词放入到一个结果文件中

q-z开头的单词放入到一个结果文件中。

例如： /hello/a.txt   200M
		hello,hi,hadoop
		hive,hadoop,hive,
		zoo,spark,wow
		zoo,spark,wow
		...
       /hello/b.txt    100m
	   hello,hi,hadoop
	   zoo,spark,wow
	   ...

1.Map阶段(运行MapTask，将一个大的任务切分为若干小任务，处理输出阶段性的结果)

①切片(切分数据)

/hello/a.txt   200M
/hello/b.txt    100m

默认的切分策略是以文件为单位，以文件的块大小(128M)为片大小进行切片！

split0:/hello/a.txt,0-128M
split1: /hello/a.txt,128M-200M
split2: /hello/b.txt,0M-100M

②运行MapTask（进程），每个MapTask负责一片数据

split0:/hello/a.txt,0-128M--------MapTask1
split1: /hello/a.txt,128M-200M--------MapTask2
split2: /hello/b.txt,0M-100M--------MapTask3

③读取数据阶段

在MR中，所有的数据必须封装为key-value

MapTask1,2,3都会初始化一个InputFormat（默认TextInputFormat），每个InputFormat对象负责创建一个RecordReader(LineRecordReader)对象

RecordReader负责从每个切片的数据中读取数据，封装为key-value.

LineRecordReader: 将文件中的每一行封装为一个key（offset）-value(当前行的内容)

举例：

hello,hi,hadoop----->(0,hello,hi,hadoop)
hive,hadoop,hive----->(20,hive,hadoop,hive)
zoo,spark,wow----->(30,zoo,spark,wow)
zoo,spark,wow----->(40,zoo,spark,wow)

④进入Mapper的map()阶段

map()是Map阶段的核心处理逻辑！单词统计! map()会循环调用，对输入的每个Key-value都进行处理！

输入：(0,hello,hi,hadoop)
输出：(hello,1),(hi,1),(hadoop,1)  
	
输入：(20,hive,hadoop,hive)
输出：(hive,1),(hadoop,1),(hive,1)  

输入：(30,zoo,spark,wow)
输出：(zoo,1),(spark,1),(wow,1)  

输入：(40,zoo,spark,wow)
输出：(zoo,1),(spark,1),(wow,1)

⑤目前，我们需要启动两个ReduceTask,生成两个结果文件，需要将MapTask输出的记录进行分区(分组，分类)

在Mapper输出后，调用Partitioner，对Mapper输出的key-value进行分区，分区后也会排序（默认字典顺序排序）

分区规则： a-p开头的单词放入到一个区

q-z开头的单词放入到另一个区

MapTask1:		   
	0号区：  (hadoop,1)，(hadoop,1)，(hello,1),(hi,1),(hive,1),(hive,1)
	1号区：  (spark,1),(spark,1),(wow,1) ，(wow,1),(zoo,1)(zoo,1)

MapTask2:		   
	0号区：  。。。
	1号区： ...

MapTask3:		   
	号区：   (hadoop,1),(hello,1),(hi,1),
	1号区： (spark,1),(wow,1),(zoo,1)

2.Reduce阶段
①copy

ReduceTask启动后，会启动shuffle线程，从MapTask中拷贝相应分区的数据！

ReduceTask1: 只负责0号区

将三个MapTask，生成的0号区数据全部拷贝到ReduceTask所在的机器！

(hadoop,1)，(hadoop,1)，(hello,1),(hi,1),(hive,1),(hive,1)
		 (hadoop,1),(hello,1),(hi,1),

ReduceTask2: 只负责1号区
将三个MapTask，生成的1号区数据全部拷贝到ReduceTask所在的机器！

(spark,1),(spark,1),(wow,1) ，(wow,1),(zoo,1)(zoo,1)
		(spark,1),(wow,1),(zoo,1)

②sort

ReduceTask1: 只负责0号区进行排序：

(hadoop,1)，(hadoop,1)，(hadoop,1),(hello,1),(hello,1),
(hi,1),(hi,1),(hive,1),(hive,1)

ReduceTask2: 只负责1号区进行排序：

(spark,1),(spark,1),(spark,1),(wow,1) ，(wow,1),(wow,1),
(zoo,1),(zoo,1)(zoo,1)

③reduce
ReduceTask1---->Reducer----->reduce(一次读入一组数据)

何为一组数据： key相同的为一组数据

输入： (hadoop,1)，(hadoop,1)，(hadoop,1)
输出：   (hadoop,3)

输入： (hello,1),(hello,1)
输出：   (hello,2)

输入： (hi,1),(hi,1)
输出：  (hi,2)

输入：(hive,1),(hive,1)
输出： （hive,2）

ReduceTask2---->Reducer----->reduce(一次读入一组数据)

输入： (spark,1),(spark,1),(spark,1)
	输出：   (spark,3)
	
	输入： (wow,1) ，(wow,1),(wow,1)
	输出：   (wow,3)
	
	输入：(zoo,1),(zoo,1)(zoo,1)
	输出：   (zoo,3)

④调用OutPutFormat中的RecordWriter将Reducer输出的记录写出

ReduceTask1---->OutPutFormat（默认TextOutPutFormat）------>RecordWriter（LineRecoreWriter）
LineRecoreWriter将一个key-value以一行写出，key和alue之间使用\t分割

在输出目录中，生成文件part-r-0000

hadoop	3
		hello	2
		hi	2
		hive	2

ReduceTask2---->OutPutFormat（默认TextOutPutFormat）------>RecordWriter（LineRecoreWriter）
LineRecoreWriter将一个key-value以一行写出，key和alue之间使用\t分割

在输出目录中，生成文件part-r-0001

spark	3
		wow	3
		zoo	3

MR总结

Map阶段(MapTask)： 切片(Split)-----读取数据(Read)-------交给Mapper处理(Map)------分区和排序(sort)

Reduce阶段(ReduceTask): 拷贝数据(copy)------排序(sort)-----合并(reduce)-----写出(write)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。