mapreduce编程心得体会 mapreduce入门案例

转载

mob64ca1403528a 2024-04-06 09:27:16

文章标签 mapreduce编程心得体会 JVM xml配置错误处理 文章分类 架构后端开发

Mapreduce 编程思想

mapreduce编程心得体会 mapreduce入门案例_错误处理

Mapper

 Map-reduce的思想就是“分而治之” 

Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”执行 

“简单的任务”有几个含义：

1 .数据或计算规模相对于原任务要大大缩小；

2 就近计算，即会被分配到存放了所需数据的节点进行计算；

3 这些小任务可以并行计算，彼此间几乎没有依赖关系

Reducer

对map阶段的结果进行汇总 

Reducer的数目由mapred-site.xml配置文件里的项目mapred.reduce.tasks决定。

缺省值为1，用户可以覆盖之

Shuffler:在reduce之前的预处理，减少计算量，有利于集群的计算

在mapper和reducer中间的一个步骤（可以没有） 

可以把mapper的输出按照某种key值重新切分和组合成n份，把key值符合某种范围的输出送到特定的reducer那里去处理 

可以简化reducer过程

举个栗子吧

M-R的现实例子

mapreduce编程心得体会 mapreduce入门案例_JVM_02

例子：mapper

mapreduce编程心得体会 mapreduce入门案例_mapreduce编程心得体会_03

例子：reducer

mapreduce编程心得体会 mapreduce入门案例_JVM_04

例子：运行mapper和reducer

mapreduce编程心得体会 mapreduce入门案例_错误处理_05

流程原理图

mapreduce编程心得体会 mapreduce入门案例_错误处理_06

Map-Reduce工作机制剖析

mapreduce编程心得体会 mapreduce入门案例_xml配置_07

调度机制

 缺省为先入先出作业队列调度 

支持公平调度器 

支持容量调度器

任务执行优化

推测式执行：即如果jobtracker发现有拖后腿的任务，会再启动一个相同的备份任务，然后哪个先执行完就会kill去另外一个。因此在监控网页上经常能看到正常执行完的作业有被kill掉的任务

推测式执行缺省打开，但如果是代码问题，并不能解决问题，而且会使集群更慢，通过在mapred-site.xml配置文件中设置mapred.map.tasks.speculative.execution和 mapred.reduce.tasks.speculative.execution可为map任务或reduce任务开启或关闭推测式执行

重用JVM，可以省去启动新的JVM消耗的时间，在mapred-site.xml配置文件中设置 mapred.job.reuse.jvm.num.tasks设置单个JVM上运行的最大任务数（1，>1或-1表示没有限制）

忽略模式，任务在读取数据失败2次后，会把数据位置告诉jobtracker，后者重新启动该任务并且在遇到所记录的坏数据时直接跳过（缺省关闭，用SkipBadRecord方法打开）