一、概述
- Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在资源利用率、资源统一管理和数据共享等方面带来了巨大好处。
- YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。这里的应用程序是指传统的MapReduce作业。
- YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager 将各个资源部分(计算、内存、带宽等)精心安排给基础 NodeManager(YARN 的每节点代理)。
- ResourceManager 还与 ApplicationMaster 一起分配资源,与 NodeManager 一起启动和监视它们的基础应用程序。在此上下文中,ApplicationMaster 承担了以前的 TaskTracker 的一些角色,ResourceManager 承担了 JobTracker 的角色。
- ApplicationMaster 管理一个在 YARN 内运行的应用程序的每个实例。ApplicationMaster 负责协调来自 ResourceManager 的资源,并通过 NodeManager 监视容器的执行和资源使用(CPU、内存等的资源分配)。
二、架构图
三、核心思想
- 将JobTracker和TaskTacker进行分离,它由下面几大构成组件:
- 一个全局的资源管理器 ResourceManager
- ResourceManager的每个节点代理 NodeManager
- 表示每个应用的 ApplicationMaster
- 每一个ApplicationMaster拥有多个Container在NodeManager上运行
组件介绍
四、ResourceManager(RM)
- RM是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(Applications Manager,ASM)。
- 调度器 调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序。需要注意的是,该调度器是一个“纯调度器”,它不再从事任何与具体应用程序相关的工作,比如不负责监控或者跟踪应用的执行状态等,也不负责重新启动因应用执行失败或者硬件故障而产生的失败任务,这些均交由应用程序相关的ApplicationMaster完成。调度器仅根据各个应用程序的资源需求进行资源分配,而资源分配单位用一个抽象概念“资源容器”(Resource Container,简称Container)表示,Container是一个动态资源分配单位,它将内存、CPU资源封装在一起,从而限定每个任务使用的资源量。
- 应用程序管理器(Applications Manager)负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以启动ApplicationMaster、监控ApplicationMaster运行状态并在失败时重新启动它等。
五、ApplicationMaster(AM)
- 用户提交的每个应用程序均包含一个AM,主要功能包括:
a. 与RM调度器协商以获取资源(用Container表示);
b. 将得到的任务进一步分配给内部的任务(资源的二次分配);
c. 与NM通信以启动/停止任务;
d. 监控所有任务运行状态,并在任务运行失败时重新为任务申请资源以重启任务。
六、NodeManager(NM)
- NM是每个节点上的资源和任务管理器
- 它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态
- 它接收并处理来自AM的Container启动/停止等各种请求。
七、Container
- Container是YARN中的资源抽象,它封装了某个节点上的内存、CPU资源
- 当AM向RM申请资源时,RM为AM返回的资源便是用Container表示。
- YARN会为每个任务分配一个Container,且该任务只能使用该Container中描述的资源。