MapReduce的定义:
MapReduce是一个分布式运算程序的编程框架,是用户基于“Hadoop的数据分析应用”的核心框架
MapReduce核心功能是将用户编写的业务逻辑代码和自带的默认组件构成一个完整的分布式运算程序,并运行在Hadoop集群上
MapReduce的缺点:
1.不擅长做实时计算:无法像MySQL一样,在毫秒或者秒级别返回结构
2.不擅长流式计算:流式计算的输入数据是动态的,而MapReduce的输入数据集必须是静态的,不能动态变化 (SparkStreaming、flink擅长流式计算)
3.不擅长DAG(有向无环图)计算:多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常的低下 (Spark擅长DAG中间的计算结果基于内存)
MapReduce的核心思想:
例如:给一个数据集统计其中每一个单词出现的总次数(查询结果:a-p一个文件,q-z一个文件)
MapReduce运算程序一般有两个阶段:Map和Reduce阶段
1.输入数据,按照128M切分数据(128M数据为一片),进入到map阶段
map阶段的MapTask,完全并行处理,互不干涉
2. 1)按照行读取数据,并进行处理 2) 按照空格切分每一行的单词 3)使用KV键值对的方式(k为单词,v定义为1)4)将按照KV键值对中的单词(k),按照首字母的方式,分成两个分区溢写到磁盘
3. Reduce阶段对Map阶段处理后数据进行汇总
Reduce阶段的并发ReduceTask,完全不相干
4.输出结果文件
如果用户的业务逻辑非常复杂,就只能多个MapReduce程序串行运行
MapReduce的编程规范:
Mapper阶段:
1.用户自定义的类需要继承Mapper
2.Mapper的输入的数据为KV键值对的形式
3.Mapper中的业务逻辑在map()方法中
4.Mapper的输出数据为KV键值对的形式
每一个<K,V>会调用一次map()方法
Reduce阶段:
1.用户自定义的类要继承Reduce类
2.Reduce的输入数据类型对应Mapper的输出数据类型
3.Reduce中的业务逻辑在reduce()方法中
每一组相同K的Values会调用一次reduce()方法
Driver阶段:
相当于YARN集群的客户端,用于提交整个程序到YARN集群,提交的是封装了MapReduce程序相关运行参数的job对象
WordCount案例:
WordCount本地模式代码实现:
WordCount集群模式代码实现:
Hadoop中的序列化:
序列化:就是将内存中的对象,转化为字节序列(或者其他数据传输协议)便于存储到磁盘(持久化)和网络传输
反序列化:就是收到的字节序列或者磁盘的持久化数据,转化为内存中的对象
为什么要有序列化:
一般来说,“活的”对象只存在内存中,一旦断电就没有了。而且“活的对象”只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机
自定义bean对象实现序列化接口:
代码解析:
在map端,每一次按行读取后的数据会进入重写的map方法中,不是进入自定义的mapper实现类中
在reduce端,每一个相同key的values数据会进入重写的reduce方法中,不是进入自定义的reducer实现类中
MapReduce框架原理:
切片与MapTask并行度机制:
数据块:Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。
数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位,一个切片会对应启动一个MapTask。
切片与MapTask并行度机制总结:
1.一个Job的map阶段的并行度是由客户端提交Job时的切片数决定的
2.每一个split切片都分配一个MapTask并行处理
3.默认情况下,切片大小 == blocksize
4.切片不考虑数据集,对每一个文件单独切片