Hadoop_Yarn学习笔记

1.什么是Yarn?

  • Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序
  • Yarn基础架构
  • 主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-372wjg2C-1647175251860)(Hadoop生态圈之MapReduce.assets/1647171384517.png)]
  • ResourceManager(RM)主要作用:
  • 处理客户端请求
  • 监控NodeManager
  • 启动或监控Application
  • 资源的分配和调度
  • NodeManager(NM)主要作用
  • 管理单个节点上的资源
  • 处理来自ResourceManager的命令
  • 处理来自ApplicationMaster的命令
  • ApplicationMaster(AM)作用
  • 为应用程序申请资源并分配内部的任务
  • 任务的监控与容错
  • Container
  • Container是Yarn中的资源抽象,它封装了某个节点的多维度资源,如COU、内存、磁盘、网络等
  • Yarn工作机制

hadoop中yarn状态为undefined hadoop中yarn的作用_hadoop

  • MR程序提交到客户端所在节点
  • YarnRunner向ResourceManager申请一个Application
  • RM将该程序的资源返回给YarnRunner
  • 该程序将运行所需资源提交到HDFS上
  • 程序资源提交完毕之后,申请运行mrAppMaster
  • RM将用户的请求初始化为一个Task任务
  • 该NodeManager创建容器Container,并产生MRAAppmaster
  • Container从HDFS上拷贝资源到本地
  • MRAppmaster向RM申请运行MapTask资源
  • RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分配到任务并创建容器
  • MR向两个接收任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序
  • MrAppMaster等所有的MapTask运行完毕之后,向RM申请容器,运行ReduceTask。
  • ReduceTask向MapTask获取相应分区的数据
  • 程序运行完毕之后,MR会向RM申请注销自己

2.Yarn调度器和调度算法

目前,Hadoop作业调度主要有三种:FIFO,容量(Capacity Scheduler)和公平(Fair Scheduler)

  • 先进先出(FIFO)
  • FIFO调度器(First In First Out):单队列,根据提交作业的先后顺序,先来先服务。
  • 优点:简单易懂
  • 缺点:不支持多队列,生产环境很少用
  • 容量调度器(Capacity Scheduler)
  • 容量调度器特点
  • 多队列:每个队列可配置一定的资源量,每个队列采用FIFO调度资源
  • 容量保证:管理员可以为每个队列设置资源最低保证和资源使用上限
  • 灵活性:如果一个队列中的资源有剩余,可以暂时共享给哪些资源的队列,而一旦该队列有新的应用程序提交,则其他队列借调的资源会归还该队列
  • 多租户:
    支持多用户共享集群和多应用程序同时运行
    为了防止同一个用户的作业独占队列中的资源,该调度器会对同一个用户提交的作业所占的资源进行限定
  • 容量调度器资源分配算法

hadoop中yarn状态为undefined hadoop中yarn的作用_应用程序_02

  • 公平调度器(Fair Scheduler)
  • 公平调度器特点
  • 与容量调度器相同点
  • 多队列:支持多队列工作
  • 容量保证:管理员可以为每一个队列设置资源最低保证和资源使用上线
  • 灵活性:如果一个队列中的资源有剩余,可以暂时共享给哪些哪些需要资源的队列,而一旦该队列有新的应用程序提交,则其他队列借调的资源会归还给该队列
  • 多租户:支持多用户共享集群和多应用程序同时运行,为了防止同一个用户的作业独占队列中的资源,该调度器会对同一个用户提交的作业所占资源进行限定。
  • 与容量调度器不同点
  • 核心调度策略不同
    容量调度器:优先选择资源利用率低的队列
    公平调度器:优先选择对资源的缺额比例大的
  • 每个队列可以单独设置资源分配方式
    容量调度器:FIFO、DRF
    公平调度器:FIFO、FAIR、DRF
  • 什么是缺额?
  • 公平调度器设计目标是:在时间尺度上,所有作业获得公平的资源。某一时刻一个作业应获资源和实际获取资源的差距叫“缺额”
  • 公平调度器会优先为缺额大的作业分配资源
  • 公平调度器队列资源分配方式
  • FIFO策略:公平调度器每个队列资源分配策略如果选择FIFO的话,就相当于容量调度器
  • Fair策略:是一种基于最大最小公平算法实现的资源多路复用方式,默认情况下,每个队列内部采用该方式分配资源。意味着,如果一个队列中有两个应用程序同时运行,则每个应用程序可得到二分之一的资源。如果三个应用程序同时运行,则每个应用程序可以得到三分之一的资源
  • 具体分配流程和容量调度器一样:
  • 选择队列
  • 选择作业
  • 选择容器

以上三步,每一步都是按照公平策略分配资源

实际最小资源份额:mindshare = Min(资源需求量,配置的最小资源)
是否饥饿:isNeedy = 资源使用量 < mindshare(实际最小资源份额)
资源分配比:minShareRatio = 资源使用量 / Max(mindshare, 1)
资源使用权重比:useToWeightRatio = 资源使用量 / 权重
  • 公平调度器资源分配算法
  • 队列资源分配
  • hadoop中yarn状态为undefined hadoop中yarn的作用_学习_03

  • 作业资源分配
  • DRF策略
  • DRF(Dominant Resource Fairness),我们之前说的资源,都是单一标准,例如考虑内存(也是Yarn默认的情况)但是很多时候我们资源有很多种,例如内存,CPU,网络宽带等,这样我们很难衡量两个应用应该分配的资源比例
  • 那么在YARN中,我们用DRF来决定如何调度:假设集群一共有100 CPU和10T 内存,而应用A需要(2 CPU, 300GB),应用B需要(6 CPU,100GB)。
    则两个应用分别需要A(2%CPU, 3%内存)和B(6%CPU, 1%内存)的资源,这就意味着A是内存主导的, B是
    CPU主导的,针对这种情况,我们可以选择DRF策略对不同应用进行不同资源(CPU和内存)的一个不同比
    例的限制。