Yarn概述

Yarn是Hadoop的第三个组件,是一个资源调度器

资源:软件资源、硬件资源

从另一个角度分析,Yarn可以看做是一个操作系统

操作系统:只对当前计算机提供管理服务,与其他机器无关

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。

重要概念

  1. Yarn并不清楚用户提交的程序的运行机制
  2. Yarn只提供运算资源的调度(用户程序向Yarn申请资源,Yarn就负责分配资源)
  3. Yarn运行在Hadoop上,Hadoop是一个集群,所以Yarn对整个集群内所有节点提供管理服务。
  4. Yarn是一种规范,只要能符合这种规范的,都可以使用Yarn来当资源调度器。spark、storm等运算框架都可以整合在Yarn上运行,只要他们各自的框架中有符合Yarn规范的资源请求机制即可。

基本架构

  1. ResourceManager
    资源管理者,管理整个集群的资源调度
    全局只有一个,一般与NameNode在同一个节点
  2. NodeManager
    节点管理者,管理当前节点的资源调度
    全局有多个,DataNode节点都有NodeManager
  3. ApplicationMaster
    应用程序(我们自己写的MR代码)管理者
    把写好的代码根据逻辑进行划分,一般是Mapper和Reducer
    不是守护进程,在需要的时候启动,使用完毕关闭
  4. Container
    容器,盛放硬件资源的。
    在执行软件任务之前,在集群中虚拟出可以供软件执行的硬件资源

工作机制

yarn 组件通讯 yarn组件的作用是_yarn

  1. 客户端向RM申请AppId,RM反馈路径和AppId
  2. 把执行需要的资源放在 路径/AppId 下
  3. 向RM申请节点执行ApplicationMaster
  4. RM分配NM,创建Container,执行ApplicationMaster
  5. 获取资源文件,划分软件任务,向RM申请NM执行Mapper任务
  6. RM分配NM节点,创建Container,执行Mapper
  7. Mapper执行完毕,继续向RM申请NM执行Reducer
  8. RM分配NM节点,创建Container,执行Reducer,每个Reducer去Mapper相应分区拉取数据
  9. Reducer执行完毕,ApplicationMaster主动向RM申请注销自己,释放资源

注意:

  1. ApplicationMaster最后是主动注销,无需代码指定。
  2. 任务执行过程边执行边申请资源。

资源调度器

目前,Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。Hadoop2.7.6默认的资源调度器是Capacity Scheduler。

具体设置详见:yarn-default.xml文件

<property>
    
    <description>The class to use as the resource scheduler</description>
    
    <name>yarn.resourcemanager.scheduler.class</name>
    
	<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
    
</property>
  1. FIFO Scheduler 先进先出调度器
    一个队列,按照提交任务的时间顺序排序,先来先执行。
  2. Capacity Scheduler 容量调度器(默认)
    多个队列接收任务,每个任务按照FIFO进行调度
    新来的任务按照每个队列的占用比例最小进入
  3. Fair Scheduler 公平调度器
    多个队列,每个任务都会先分配部分资源,按照缺额最大优先分配