hivesql计算效率和mapreduce的关系 mapreduce的计算模型

转载

编程梦想实现家 2023-11-30 21:57:31

文章标签 Hadoop jar 抽象类 文章分类 Hive 大数据

本文讲解Hadoop中的编程及计算模型MapReduce，并将给出在MapReduce模型下编程的基本套路。

前言

本文讲解Hadoop中的编程及计算模型MapReduce，并将给出在MapReduce模型下编程的基本套路。

模型架构

在Hadoop中，用于执行计算任务(MapReduce任务)的机器有两个角色：一个是JobTracker，一个是TaskTracker，前者用于管理和调度工作，后者用于执行工作。

一般来说，一个Hadoop集群由一个JobTracker和N个TaskTracker构成。

执行流程

Map阶段和Reduce阶段。

其中，Map阶段接收一组键值对模式<key, Value>的输入并产生同样是键值对模式<key, Value>的中间输出；

Reduce阶段负责接收Map产生的中间输出<key, Value>，然后对这个结果进行处理并输出结果。

这里举个很简单的例子，有一个程序用来统计文本中各个单词出现的个数，那么每个Map任务可以负责提取出文本中的所有单词并产生n个<word, 1>这样的输出；

而Reduce任务可以负责对这些中间输出做出处理，转换成<word, n> 这样的输出。

hivesql计算效率和mapreduce的关系 mapreduce的计算模型_Hadoop

多说一句，Map产生的中间输出是直接放在本地磁盘，job完成后就会删除了。而Reduce产生的最终结果才会存放在Hdfs上。

编码框架说明

编码涉及到一些细节，建议结合具体代码进行分析，这里只给出一个框架性的说明。推荐阅读经典的wordcount程序。

1. 导入Hadoop开发需要用到的一些包

2. 定义一个需要用到分布式计算的类

3. 在此类中添加Map类，并使该类继承Mapper抽象类，然后实现该抽象类中的map方法。

4. 在此类中添加Reduce类，并使该类继承Reducer抽象类，然后实现该抽象类中的reduce方法。

5. 在类中定义一个成员函数并做如下操作：

a. 定义一个Job对象负责job调度

b. 往a中定义的job对象中注入2中定义的分布式类 (setJarByClass)

c. 定义分布式任务的名字 (setJobName)

d. 往a中定义的job对象中注入输出的key和value的类型 (setOutPutKeyClass，setOutPutKeyClass)

e. 往a中定义的job对象中注入3和4中定义的Map，Reduce类

f. 往a中定义的job对象中注入数据切分格式类 (setInputFormat，setOutputFormat)

g. 往a中定义的job对象中注入输出的路径地址 (setInputPaths，setOutputPath)

h. 启动计算任务 (waitForCompletion)

i. 返回布尔类型的执行结果

6. 在主函数中调用上述方法 (命令行方式)

运行方法

1. 执行以下格式的命令以编译分布式计算类

1 javac -classpath "hadoop目录下的core.jar" -d "结果输出目录" "分布式类文件名"

2. 执行以下格式的命令将该类打包成jar

1 jar -cvf "结果文件名(后缀.jar)" -C "目标目录" "结果输出目录"

3. 执行以下格式的命令将输入文件存入HDFS文件系统 (该命令将在HDFS上创建一个名为input的目录并将用户目录下input目录内前缀为file的文件导入进去)：

1 dfs -mkdir input
2 dfs -put ~/input/file0* input

4. 执行以下格式的命令启动hadoop程序 (下面的参数一和二一般分别指输入和输出目录)

1 jar "分布式类jar包" "分布式类名" 参数一，参数二......

MapReduce的数据流和控制流

下面来讨论一下Hadoop程序的数据流和控制流的关系，首先请看下图：

hivesql计算效率和mapreduce的关系 mapreduce的计算模型_jar_02

首先，由Master，也即JobTracker负责分派任务到下面的各个worker，也即TaskTracker。

某个worker在执行的时候，会返回进度报告，master负责记录进度的进行状况。

若某个worker失败，那么master会分派这个执行失败的任务给新的worker。

程序优化技巧

运算性能方面的优化；另一个是IO操作方面的优化。

具体体现在以下的几个环节之上：

1. 任务调度

a. 尽量选择空闲节点进行计算

b. 尽量把任务分配给InputSplit所在机器

2. 数据预处理与InputSplit的大小

尽量处理少量的大数据；而不是大量的小数据。因此可以在处理前对数据进行一次预处理，将数据进行合并。

如果自己懒得合并，可以参考使用CombineFileInputFormat函数。具体用法请查阅相关函数手册。

3. Map和Reduce任务的数量

Map任务槽中任务的数量需要参考Map的运行时间，而Reduce任务的数量则只需要参考Map槽中的任务数，一般是0.95或1.75倍。

4. 使用Combine函数

该函数用于合并本地的数据，可以大大减少网络消耗。具体请参考函数手册。

5. 压缩

可以对一些中间数据进行压缩处理，达到减少网络消耗的目的。

6. 自定义comparator

可以自定义数据类型实现更复杂的目的。

小结

本文大致讲解了Hadoop的编程模型MapReduce，并大致介绍了如何在这个框架下进行简单的程序开发。

更复杂的框架剖析以及Hadoop高级程序开发，将在以后的文章中进行细致的探讨。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java cv浏览器播放海康视频海康浏览器插件手机版

下一篇：重载加法运算符使其满足矩阵的加法python python运算符重载加减乘除

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯