yarn是一个分布式的资源管理系统。

它诞生的原因是原来的MapReduce框架的一些不足:

1、JobTracker单点故障隐患

2、JobTracker承担的任务太多,维护Job状态,Job的task的状态等

3、在taskTracker端,使用map/reduce task表示资源过于简单,没有考虑cpu、内存等使用情况。当把多个需要消耗大量内存的task调度到一起时,很容易出现问题

演化后的基本组件

下面具体解释:

yarn是一个资源管理的框架,而非计算的框架,理解这点很重要。

图中的Application相当于1.x版本中的map/reduce job。

图中的Container是一个逻辑概念,是一组资源(内存、cpu等)的统称。

AM:每一个Application对应一个AM。

ResourceManager:主要来做资源的协调者。有两个重要的组件:

  Scheduler:【资源调度】从所有运行着的Application收到资源请求后,构建一个全局的分配计划。然后根据Application特殊的限制以及全局的一些限制条件分配资源。【资源监视】周期性的接受来自NM的资源使用率监控信息。注意这和job的执行情况无关,只是监视资源。另外可以为AM提供其已完成的container的状态信息。

  Asm:接收资源请求,向Scheduler申请一个Container提供给AM,并启动AM。向client提供AM运行状态。总结一句话,就是用来管理所有AM的生命周期。

yarn工作流程:

总结的说就是两步:client提交Job到AM,AM请求资源运行起来ASM;ASM接管,它计算split、申请资源、与NM配合运行task、监控task等。

1、Job client向AM提交job。

  1)获得ApplicationID

  2)将Application定义,以及所需jar包上传到hdfs指定目录(yarn-site.xml的yarn.app.mapreduce.am.staging-dir)

  3)构造资源请求对象以及Application提交上下文信息,提交给AM

2、AM向Scheduler请求一个供ASM运行的Container,向其所在NM发送launchContainer信息,启动Container

3、AM于NM协调,启动ASM,并监控之

4、Job client从AM处获得ASM信息,并与之直接通信

5、ASM计算splits并为所有map构造资源请求

6、ASM做一些OutputCommitter的准备工作

7、ASM向Scheduler申请资源(一组Container)然后与NM一起对Container执行一些必要的任务,例如资源本地化

8、ASM监视task,如果失败重新申请Container,如果完成,运行OutputCommitter的cleanup以及commit动作

9、ASM退出

client想知道监控信息的途径:

  task的从AM获取

  AM的从AsM获取

NM还有一项工作,监控task所使用的资源,如果超出所申请的Container范围,则kill掉其任务进程

yarn是资源框架,计算框架运行于资源框架之上。map-reduce是计算模型,它实现了特定的ApplicationMaster,才得以在yarn上运行。如果是其他的计算模型,还需要实现特定的ApplicationMaster,才能在yarn上运行。

引申阅读:http://www.aboutyun.com/thread-7678-1-3.html

Hadoop学习14--Hadoop之一点点理解yarn的更多相关文章

  1. Hadoop学习之Hadoop集群搭建

    1.检查网络状况 Dos命令:ping ip地址,同时,在Linux下通过命令:ifconfig可以查看ip信息2.修改虚拟机的ip地址    打开linux网络连接,在桌面右上角,然后编辑ip地址, ...

  2. hadoop学习;hadoop伪分布搭建

    先前已经做了准备工作安装jdk什么的,以下開始ssh免password登陆.这里我们用的是PieTTY工具,当然你也能够直接在linux下直接操作 ssh(secure shell),运行命令 ssh ...

  3. Hadoop学习笔记——Hadoop经常使用命令

    Hadoop下有一些经常使用的命令,通过这些命令能够非常方便操作Hadoop上的文件. 1.查看指定文件夹下的内容 语法: hadoop fs -ls 文件文件夹 2.打开某个已存在的文件 语法: h ...

  4. 二十六、Hadoop学习笔记————Hadoop Yarn的简介复习

    1. 介绍 YARN(Yet Another Resource Negotiator)是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度. 之前有提到过,Yarn主要是为了减轻Hadoop ...

  5. Hadoop学习笔记(四):Yarn和MapReduce

    1. 先关闭掉所有的防火墙(master和所有slave) 2. 配置yarn-site.xml文件(配置所有机器,此时没有启动hadoop服务) 3. 启Yarn,输入要命令start-yarn.s ...

  6. hadoop学习(一)概念理解

    1.概念 1.1什么是hadoop? hadoop 是大数据存储和处理的框架,主要组成为文件存储系统hdfs和分布式计算框架mapreduce. 1.2能做什么,擅长做什么,不擅长做什么? 1.2.1 ...

  7. Hadoop学习(3)-mapreduce快速入门加yarn的安装

    mapreduce是一个运算框架,让多台机器进行并行进行运算, 他把所有的计算都分为两个阶段,一个是map阶段,一个是reduce阶段 map阶段:读取hdfs中的文件,分给多个机器上的maptask ...

  8. Hadoop学习笔记(老版本,YARN之前),MapReduce任务Namenode DataNode Jobtracker Tasktracker之间的关系

    一.基本概念 在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出的运行于各个计算节点的工作单元称为“任务(task)”.此外,Hadoop提供的分布式文件系统 ...

  9. hadoop学习之hadoop完全分布式集群安装

    注:本文的主要目的是为了记录自己的学习过程,也方便与大家做交流.转载请注明来自: http://blog.csdn.net/ab198604/article/details/8250461 要想深入的 ...

随机推荐

  1. Educational Codeforces Round 14 E.Xor-sequences

    题目链接 分析:K很大,以我现有的极弱的知识储备,大概应该是快速幂了...怎么考虑这个快速幂呢,用到了dp的思想.定义表示从到的合法路径数.那么递推式就是.每次进行这样一次计算,那么序列的长度就会增加 ...

  2. 解决Centos7安装后无法联网的问题

    1.进入目录/etc/sysconfig/network-scripts/ $ cd /etc/sysconfig/network-scripts/ 2.找到编辑ifcfg-enoxxxx文件,后面的 ...

  3. 使用scp将文件/目录拷贝到另一台Linux主机上

    如何将一台Linux主机上的文件或目录拷贝到另一台Linux主机上,scp命令可以实现该需求 前提条件:两台Linux主机处于同一网段,可以互相ping通 操作如下: 文件拷贝 ①将本地文件拷贝到远端 ...

  4. HttpCache ETag与Last-Modified与Expires

    Last-Modified 是检查一个资源最后修改时间.如果时间过期了则返回资源内容.如果没过期,返回304.当Last-Modified更新了,但是资源本质上没有更新,比如资源是A,Last-Mod ...

  5. IIS7配置asp网站

    An error occurred on the server when processing the URL. Please contact the system administrator. If ...

  6. iOS开发UI篇—Quartz2D使用(截屏)

    iOS开发UI篇—Quartz2D使用(截屏) 一.简单说明 在程序开发中,有时候需要截取屏幕上的某一块内容,比如捕鱼达人游戏.如图: 完成截屏功能的核心代码:- (void)renderInCont ...

  7. Vmware workstation 10 NAT功能总是不正常的原因

    原来运行一切正常的VMWARE WORKSTATION 10,突然出现NAT功能不能正常工作的情况. 表现是:如果将虚拟机的网卡设置为NAT模式,可以PING通网关及LAN内的主机,但是PING不通外 ...

  8. UISlider

    UISlider是iOS中的滑块控件 通常⽤于控制视频播放进度,控制⾳量等. 它继承于UIControl,滑块提供了⼀系列连续的值,滑块停 在不同的位置,获取到滑块上的值也不同.   minimumV ...

  9. IT公司100题-tencent-打印所有高度为2的路径

    问题描述: 打印所有到叶子节点长度为2的路径  10  /  \ 6   16 / \   / \ 4 8  14 18   / \    / \    \ 2  5  12 15 20 / 11   ...

  10. Swift语言—有趣的字符串连接、数组、字典

    字符串链接:Swift语言中的字符串连接方式本人觉得非常的有趣,变量连接需要用右斜杠,并且变量名要括起来 “\(变量名)”,后面的字符串连接分别用逗号 ‘ , ’ 隔开 数组: Var arr = [ ...