Yarn : 新的计算框架,是一个全局资源管理器,负责整个集群的资源管理和分配
 
一. Yarn产生背景
 
    Hadoop1.0MR有局限性,概括为以下几个方面 : 
  1. 扩展性差
  2. 可靠性差
  3. 资源利用率低
  4. 无法支持多种计算框架
    
    为克服Hadoop1.0中MR存在各种问题而提出了Yarn,它将JobTracker中的资源管理和作业控制功能分开,分别由组件ResourceManager和ApplicationMaster实现,其中,ResourceManager负责所有应用程序的资源分配,而ApplicationMaster仅负责管理一个应用程序,进而诞生了全新的通用资源管理框架 - Yarn
 
二. Yarn基本架构
 
    基本架构
 
    Yarn是资源管理系统,它的基本设计思想是将Hadoop1.0MR中的JobTracker拆分成两个独立的服务 : 一个全局资源管理器ResourceManager和每个应用程序特有的ApplicationMaster
 
    Yarn总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave,ResourceManager负责对各个NodeManager上的资源进行统一管理和调度.当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的ApplicationMaster,它负责向ResourceManager申请资源,并要求NodeManager启动可以占用一定资源的任务
 
                                                                                          Apache Yarn的基本架构
 
    组件构成
 
    1)调度器:
    它仅仅是一个单纯的“调度器”,不参与 集群的其他任何操作,负责给各个应用程序的资源进行分配,基本分配单位是一个资源抽象概念“Container”,Container封装了内存和CPU。
    2)应用程序管理器(ApplicationMaster)(AM)
    应用程序管理器负责整个系统中的所有应用程序,包括:应用程序的提交、与调度器协商资源已启动ApplicationMaster进程,监控ApplicationMaster运行状态并在失败时重新启动它等
    3)Container
    Container是YARN的资源抽象,Container封装了某个节点内存和CPU,当AM向RM申请资源时,RM为AM 返回的资源用Container表示。负责对各个应用程序的资源进行分配
    4)NodeManager(NM)
    是每一个节点的资源和任务管理器,1会定时向RM汇报它所在节点的资源使用情况和Container的运行状态;2可以处理来自AM发送的Container的启动/停止等等命令
    5)ResourceManager(RM)
    全局资源管理器,负责整个集群集群的资源管理与分配, RM作为整个集群的资源管理与分配的角色,如果出现单点故障(单个节点宕掉),Hadoop2.4.0版本之前,无法在进行资源管理与分配,Hadoop2.4.0版本出现之后有了HA(高可用),可以增加RM的可用性(出现单点故障不影响RM运行)
 
    通信协议
 
    Yarn的通信协议 - RPC协议,RPC协议是连接各个组件的,在Yarn中,任何两个需相互通信的组件之间仅有一个RPC协议,而对于任何一个RPC协议,通信双方有一端是Client,有一端为Server,且Client总是主动连接Server的,因此,Yarn实际上采用的拉式(pull-based)通信模型
 
                                                                                              Yarn的RPC协议
 
 
    Yarn主要由以下几个RPC协议组成 :
  • JobClient ---> RM(ApplicationClientProtocol) : JobClient通过该RPC协议提交应用程序,查询应用程序状态等
  • Admin ---> RM(ResourceManagerAdministrationProtocol) : Admin通过该协议更新系统配置文件,比如节点黑白名单,用户队列权限等
  • AM ---> RM(ApplicationMasterProtocol) : AM通过该RPC协议向RM注册和撤销自己,并为各个任务申请资源
  • AM ---> NM(ContainerManagementProtocol) : AM通过该RPC要求NM启动或者停止Container,获取各个Container的使用状态等信息
  • NM ---> RM(ResourceTracker) : NM通过该RPC协议向RM注册,并定时发送心跳信息会报当前节点的资源使用情况和Container运行情况
 
    任务执行流程
 
    1    用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等
    2    ResourceManager为该应用程序分配第一个Container(这里可以理解为一种资源比如内存),并与对应的Node-Manager通信,要求它在这个Container中启动应用程序的ApplicationMaster。
    3    ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManage查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束,即重复步骤4~7。
    4    ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。
    5    一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务。
    6    NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务。
    7    各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。
    8    应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己
 
    三. 多角度理解Yarn
 
    并行编程
    
        单机程序设计,为了快速处理一个大的数据集,通常采用多线程并行编程,有操作系统启动主线程,由它切分数据,任务分配,子线程启动和销毁等工作,而各个子线程只负责计算自己的数据,当所有子线程处理完数据后,主线程退出
 
        类比,Yarn上的应用程序运行过程与之相近,只不过他是集群上的分布式并行编程.Yarn为应用程序启动AppMaster(相当主线程),然后由AppMaster负责数据切分,任务分配,启动和监控等工作,而AppMaster启动的每个Task(相当于子线程)仅负责自己的计算任务.当计算完成,AppMaster认为运行完成,退出
 
    资源管理
 
    资源管理系统的主要功能是对集群中各类资源进行抽象,并根据各种应用程序或者服务的要求,按照一定的调度策略,将资源分配给他们使用,同时需采用一定的资源隔离机制防止应用程序或者服务之间因资源抢占而相互干扰
 
    云计算
 
    普遍认为,云计算包括以下几个层次的服务 : 
  • IaaS : 基础设施即服务
  • PaaS : 平台即服务
  • SaaS : 软件即服务
 
    从云计算分层概念上讲,Yarn可看做PaaS层,它能为不用类型的应用程序提供统一的管理和调度
 
我每天会写文章记录大数据技术从入门到精通,可以关注我的公众号"SmallBird技术分享",我们一起学习分享,并且回复'分享'会有大数据资源惊喜等着你~

Yarn介绍(设计理念与基本架构)的更多相关文章

  1. hadoop知识点总结(三)YARN设计理念及基本架构

    YARN设计理念与基本架构 1,MRv1的局限性:扩展性差,可靠性差,资源利用率低,无法支持多种计算框架 2,YARN基本设计思想 1)基本框架对比 Hadoop1.0中,JobTracker由资源管 ...

  2. Spring技术内幕:设计理念和整体架构概述(转)

    程序员都很崇拜技术大神,很大一部分是因为他们发现和解决问题的能力,特别是线上出现紧急问题时,总是能够快速定位和解决. 一方面,他们有深厚的技术基础,对应用的技术知其所以然,另一方面,在采坑的过程中不断 ...

  3. 【转帖】Spark设计理念与基本架构

    Spark设计理念与基本架构 https://www.cnblogs.com/swordfall/p/9280006.html 1.基本概念 Spark中的一些概念: RDD(resillient d ...

  4. 远程服务调用RPC框架介绍,微服务架构介绍和RPC框架对比,dubbo、SpringClound对比

    远程服务调用RPC框架介绍,微服务架构介绍和RPC框架对比,dubbo.SpringClound对比 远程服务调用RPC框架介绍,RPC简单的来说就是像调用本地服务一样调用远程服务. 分布式RPC需要 ...

  5. 【深入浅出 Yarn 架构与实现】1-1 设计理念与基本架构

    一.Yarn 产生的背景 Hadoop2 之前是由 HDFS 和 MR 组成的,HDFS 负责存储,MR 负责计算. 一)MRv1 的问题 耦合度高:MR 中的 jobTracker 同时负责资源管理 ...

  6. Hadoop YARN介绍

    YARN产生背景 MRv1的局限 YARN是在MRv1基础上演化而来的,它克服了MRv1中的各种局限性.在正式介绍YARN之前,先了解下MRv1的一些局限性,主要有以下几个方面: 扩展性差.在MRv1 ...

  7. Unity3d 引擎原理详细介绍、Unity3D引擎架构设计

    体系结构 为了更好地理解游戏的软件架构和对象模型,它获得更好的外观仅有一名Unity3D的游戏引擎和编辑器是非常有用的,它的主要原则. Unity3D 引擎 Unity3D的是一个屡获殊荣的工具,用于 ...

  8. Spark设计理念与基本架构

    1.基本概念 Spark中的一些概念: RDD(resillient distributed dataset):弹性分布式数据集. Partition:数据分区.即一个RDD的数据可以划分为多少个分区 ...

  9. Solr系列一:Solr(Solr介绍、Solr应用架构、Solr安装使用)

    一.前言 前面已经学习了Lucene的分词.索引详解.搜索详解的知识,已经知道开发一个搜索引擎的流程了.现在就会有这样的一个问题:如果其他的系统也需要使用开发的搜索引擎怎么办呢?这个时候就需要把开发的 ...

随机推荐

  1. [译]如何在GitHub仓库创建一个标签tag, 并推送到远程分支?

    问: 我在GitHub上有一个仓库,我需要给他打个tag.我在shell打了tag,但是在Github上没有显示出来.我还要做其他什么么? 我在shell中使用的命令是: git tag 2.0 当我 ...

  2. Jrebel激活方法(转)

    本次服务长期稳定提供给各位同学使用哦!服务器地址:https://jrebel.qekang.com/{GUID}在线GUID地址:在线生成GUID如果失效刷新GUID替换就可以!打开jrebel 激 ...

  3. Jmeter性能测试实战教程系列-搭建分布式性能测试环境(五)

    Jmeter 是java 应用,对于CPU和内存的消耗比较大,因此,当需要模拟数以千计的并发用户时,使用单台机器模拟所有的并发用户就有些力不从心,甚至会引起JAVA内存溢出错误.为了让jmeter工具 ...

  4. robot:根据条件主动判定用例失败或者通过

    场景: 当用例中的断言部分需要满足特定条件时才会执行,如果不满足条件时,可以主动判定该用例为passed状态,忽略下面的断言语句. 如上图场景,当每月1号时,表中才会生成上月数据,生成后数据不会再有改 ...

  5. velocity 自定义工具类接入

    网上的教程几乎都是同一篇: velocity 自定义工具类 - eggtk - CSDN 博客 但是教程有不完善的地方,我就补充一下. 补充: 引入的jar包和版本要一致.我们项目中因为没有定义确切版 ...

  6. MySQL的join on和 where 的执行顺序和区别,以及各种连接说明

    目录 1.各种连接的解读说明: 1.1.各种连接的含义和说明 1.1.1 所有连接分类 1.1.2 left join 和 left outer join 区别 1.2.神图参考 1.4.一些参考说明 ...

  7. 如何使用C++实现单链表

    线性表--链表 为什么假期也在发文章 //TODO NullGirlfrindException 请忽略以上两行无聊的事实...... 如何弥补顺序表的不足之处? 第一次学习线性表一定会马上接触到一种 ...

  8. 【转帖】如果进入CPU的世界,时间会是怎样的?

    如果进入CPU的世界,时间会是怎样的? 2018-02-26 20:52:46 world6 阅读数 1295更多 分类专栏: 网络 缓存服务 架构   版权声明:本文为博主原创文章,遵循CC 4.0 ...

  9. [转帖]理解k8s 的 Ingress

    理解k8s 的 Ingress https://www.jianshu.com/p/189fab1845c5/ 暴露一个http服务的方式 service 是 k8s 暴露http服务的默认方式, 其 ...

  10. oracle 常用sql 经典sql函数使用 sql语法

    各种树操作, 用来查询表中带有子父节点的信息 Oracle 树操作(select-start with-connect by-prior) select m.org_id from sm_organ ...