Yarn概述
Yarn是Hadoop的第三个组件,是一个资源调度器
资源:软件资源、硬件资源
从另一个角度分析,Yarn可以看做是一个操作系统
操作系统:只对当前计算机提供管理服务,与其他机器无关
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。
重要概念
- Yarn并不清楚用户提交的程序的运行机制
- Yarn只提供运算资源的调度(用户程序向Yarn申请资源,Yarn就负责分配资源)
- Yarn运行在Hadoop上,Hadoop是一个集群,所以Yarn对整个集群内所有节点提供管理服务。
- Yarn是一种规范,只要能符合这种规范的,都可以使用Yarn来当资源调度器。spark、storm等运算框架都可以整合在Yarn上运行,只要他们各自的框架中有符合Yarn规范的资源请求机制即可。
基本架构
- ResourceManager
资源管理者,管理整个集群的资源调度
全局只有一个,一般与NameNode在同一个节点 - NodeManager
节点管理者,管理当前节点的资源调度
全局有多个,DataNode节点都有NodeManager - ApplicationMaster
应用程序(我们自己写的MR代码)管理者
把写好的代码根据逻辑进行划分,一般是Mapper和Reducer
不是守护进程,在需要的时候启动,使用完毕关闭 - Container
容器,盛放硬件资源的。
在执行软件任务之前,在集群中虚拟出可以供软件执行的硬件资源
工作机制
- 客户端向RM申请AppId,RM反馈路径和AppId
- 把执行需要的资源放在 路径/AppId 下
- 向RM申请节点执行ApplicationMaster
- RM分配NM,创建Container,执行ApplicationMaster
- 获取资源文件,划分软件任务,向RM申请NM执行Mapper任务
- RM分配NM节点,创建Container,执行Mapper
- Mapper执行完毕,继续向RM申请NM执行Reducer
- RM分配NM节点,创建Container,执行Reducer,每个Reducer去Mapper相应分区拉取数据
- Reducer执行完毕,ApplicationMaster主动向RM申请注销自己,释放资源
注意:
- ApplicationMaster最后是主动注销,无需代码指定。
- 任务执行过程边执行边申请资源。
资源调度器
目前,Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。Hadoop2.7.6默认的资源调度器是Capacity Scheduler。
具体设置详见:yarn-default.xml文件
<property>
<description>The class to use as the resource scheduler</description>
<name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>
- FIFO Scheduler 先进先出调度器
一个队列,按照提交任务的时间顺序排序,先来先执行。 - Capacity Scheduler 容量调度器(默认)
多个队列接收任务,每个任务按照FIFO进行调度
新来的任务按照每个队列的占用比例最小进入 - Fair Scheduler 公平调度器
多个队列,每个任务都会先分配部分资源,按照缺额最大优先分配