文章目录

  • Yarn的前世今生
  • Yarn的基本架构
  • ResourceManager的组成部分
  • Yarn的运行原理


Yarn的前世今生

  • Yarn为什么会诞生?
  • Hadoop1.0中,并没有Yarn,直到Hadoop2.0才有。Hadoop1.0中,Hadoop的核心组件是HDFS和MapReduce,Hadoop2.0中,其核心组件在HDFS和MapReduce的基础上加入了Yarn。
  • 在Hadoop1,0中,存在最大的问题就是资源管理问题;此外,随着技术发展,人们已经不满于Hadoop集群中只使用MapReduce一种计算框架(例如后续出现的Spark,Mars等)。人们更希望有一套合理的管理机制,来控制整个集群的资源使用,那么随之就出现了Yarn。
  • Yarn干什么用?
  • 也就是说,Yarn是一个实现集群资源管理的系统组件,为上层计算框架提供计算资源。在Hadoop中其中启动Yarn的命令如下。之后会发现系统中多了两个进程:ResourceManager(全局资源管理器,简称RM)和NodeManager(借点资源任务管理器,NM)。也可以说RM和NM合在一起就是YARN。
./

Yarn的基本架构

  Yarn在设计思想上和HDFS都是主从架构(Master\Slave)。在HDFS中,NameNode是主节点,DataNode是从节点!在Yarn中,RM是主节点,NM是从节点。

hadoop yarn配置参数 hadoop中的yarn_Hadoop

ResourceManager的组成部分

  RM有两个组成部分:调度器(Scheduler)和应用程序管理器(ApplicationManager)。

hadoop yarn配置参数 hadoop中的yarn_Hadoop_02

  • ApplicationManager(应用程序管理器,简称AM)
  • AM主要负责接收client端提交的job请求,为应用(MapReduce程序)分配一个Container来运行第一个Application Master,并负责监控Application Master,并在遇到失败的时候重启Application Master。
  • Scheduler(调度器)
  • 调度器就是为了让每一个结点都充分利用起来,并合理地分配和调度的一种管理器。
  • 值得注意的是:调度器仅仅是一个单纯的调度器,他不负责从事任何具体的和应用程序相关的工作!例如运行map任务和reduce任务不是他的工作范围,监控程序、跟踪程序也不在其工作范围。
  • 调度器又分为三种:1.容量调度器;2.公平调度器;3.队列调度器。
  • ApplicationMaster
  • 负责监控Map任务和Reduce任务,用户提交的每一个程序都会产生一个ApplicationMaster,该AM是负责整个任务的一个管理者!
  • 主要功能:1.与RM的调度器RS协商获取执行资源;2.与NM通信以启动或者停止任务,其中涉及到一个内容:资源池Container;3.监控所有其下任务的执行状态(map,reduce),如果失败,则会重新申请资源来启动任务。
  • Container
  • Container是Yarn中的资源抽象,它分装了某个结点的多维度资源,如内存,CPU,磁盘,网络,IO。
  • ApplicationMaster,map,reduce都运行在资源池。资源池主要是将结点的资源切分出来组成一个可以单独运行任务(map,reduce)的容器。

Yarn的运行原理

用一张图来表示:

hadoop yarn配置参数 hadoop中的yarn_hadoop yarn配置参数_03