Spark on Yarn 架构解析

。

一、Hadoop Yarn组件介绍:

我们都知道yarn重构根本的思想，是将原有的JobTracker的两个主要功能资源管理器 和 任务调度监控 分离成单独的组件。新的架构使用全局管理所有应用程序的计算资源分配。主要包含三个组件ResourceManager 、NodeManager和ApplicationMaster以及一个核心概念Container.

1.ResourceManager(RM)

　就是所谓的资源管理器，每个集群一个，实现全局的资源管理和任务调度。它可以处理客户端提交计算作业的请求，启动并监听ApplicationMaster，监控NodeManager，进行资源分配与调度。每一个应用程序需要不同类型的资源，因此就需要不同的容器。这里的资源包括内存、CPU、磁盘、网络等。（比如使用spark-submit 执行程序jar包，就需要向ResourceManager注册，申请相应的容器，资源)，其中该ResourceManager提供一个调度策略的插件，负责将集群资源分配给多个队列和应用程序.（可以基于现有的能力调度和公平调度模型)

2.NodeManager(NM)

节点管理器，每个节点一个，实现节点的监控与报告。处理来自ResourceManager的命令，也处理来自ApplicationMaster的命令，同时监控资源可用性，报告错误，管理资源的生命周期。NodeManager是每一台机器框架的代理，是执行应用程序的容器，监控应用程序的资源使用情况(CPU、内存、硬盘、网络)并向调度器汇报。

3.ApplicationMaster(AM)

应用控制器，每个作业或应用一个，实现应用的调度和资源协调。具体来说呢，它进行数据的切分，为应用申请资源并分配给任务，完成任务监控与容错。实际上，每个应用的ApplicationMaster是一个详细的框架库。它结合从ResourceManager获得的资源和NodeManager协同工作来运行和监听任务。ApplicationMaster负责向ResourceManager索要适当的资源容器(containter)来运行任务，跟踪应用程序的状态和监控她们的进程，处理任务的失败原因。

4.Container

　容器，封装了及其资源，包括内存、CPU、磁盘、网络等。每个任务会被分配一个容器，该任务只能在该容器中执行，并使用该容器封装的资源。当应用程序发出资源请求时，ResourceManager并不会立刻返回满足要求的资源，需要ApplicationMaster与ResourceManager不断地通信，检测分配到的资源足够，才会进行分配。一旦分配完毕，ApplicationMaster便可从ResourceManager处获取以Container表示的资源。(Container可以看做一个可序列化的Java对象，包含字段信息)一般来说，每个Container可用于执行一个任务。ApplicationMaster在收到一个或多个Container后，再将该Container进一步分配给内部的某个任务，确定该任务后，ApplicationMaster将该任务运行环境(包含运行命令、环境变量、依赖的外部文件等)连同Container中的资源信息封装到ContainerLaunchContext对象中，进而与对应的NodeManager通信，启动该任务。

二、Spark on Yarn

1.当提交一个spark-submit任务时，spark将在startUserClass函数专门启动了一个线程（名称为Driver的线程）来启动用户提交的Application，也就是启动了Driver。在Driver中将会初始化SparkContext。

2.等待SparkContext初始化完成，最多等待spark.yarn.applicationMaster.waitTries次数（默认为10），如果等待了的次数超过了配置的，程序将会退出；否则用SparkContext初始化yarnAllocator.

3.当SparkContext、Driver初始化完成的时候，通过ApplicationMasterClient向ResourceManager注册ApplicationMaster.

4.分配并启动Executeors。在启动Executeors之前，先要通过yarnAllocator获取到numExecutors个Container，然后在Container中启动Executeors。(启动Executeors是通过ExecutorRunnable实现的，而ExecutorRunnable内部是启动CoarseGrainedExecutorBackend的)

5.最后，Task将在CoarseGrainedExecutorBackend里面运行，然后运行状况会通过Akka通知CoarseGrainedScheduler，直到作业运行完成。

Spark on Yarn只需要部署一份spark，当应用程序启动时，spark会将相关的jar包上传注册给ResoureManager，任务的执行由ResourceManager来调度，并执行spark的代码。

Spark on Yarn 架构解析的更多相关文章

Spark MLlib架构解析（含分类算法、回归算法、聚类算法和协同过滤）
Spark MLlib架构解析 MLlib的底层基础解析 MLlib的算法库分析分类算法回归算法聚类算法协同过滤 MLlib的实用程序分析从架构图可以看出MLlib主要包含三个部分: 底层基 ...
3.spark streaming Job 架构和容错解析
一.Spark streaming Job 架构 SparkStreaming框架会自动启动Job并每隔BatchDuration时间会自动触发Job的调用. Spark Streaming的Job ...
Apache Spark源码走读之8 -- Spark on Yarn
欢迎转载,转载请注明出处,徽沪一郎. 概要 Hadoop2中的Yarn是一个分布式计算资源的管理平台,由于其有极好的模型抽象,非常有可能成为分布式计算资源管理的事实标准.其主要职责将是分布式计算集群的 ...
Spark(一): 基本架构及原理
Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和St ...
Spark On Yarn的两种模式yarn-cluster和yarn-client深度剖析
Spark On Yarn的优势每个Spark executor作为一个YARN容器(container)运行.Spark可以使得多个Tasks在同一个容器(container)里面运行 1. Sp ...
四、spark集群架构
spark集群架构官方文档:http://spark.apache.org/docs/latest/cluster-overview.html 集群架构我们先看这张图这张图把spark架构拆分成了 ...
Spark on YARN简介与运行wordcount（master、slave1和slave2）（博主推荐）
前期博客 Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz +hadoop-2.6.0.tar.gz)(master.slave1和slave2)(博主 ...
Spark（四十九）：Spark On YARN启动流程源码分析（一）
引导: 该篇章主要讲解执行spark-submit.sh提交到将任务提交给Yarn阶段代码分析. spark-submit的入口函数一般提交一个spark作业的方式采用spark-submit来提交 ...
Spark On YARN启动流程源码分析（一）
本文主要参考: a. https://www.cnblogs.com/yy3b2007com/p/10934090.html 0. 说明 a. 关于spark源码会不定期的更新与补充 b. 对于spa ...

随机推荐

DataTransfer(setData()方法)
DataTransfer对象专门用来存储拖放时要携带的数据,它可以被设置为拖放事件对象的DataTransfer属性.---把拖动的数据存入其中setData有两个参数:1.第一个参数为携带数据的数据 ...
System program problem detected 解决
每次开机都出现:System program problem detected 管理员权限打开:/etc/default/apport su root vim /etc/default/app ...
FZU 1343 WERTYU --- 水题
FZU 1343 题目大意:手放在键盘上时,稍不注意就会往右错一位.这样Q就会输入成W,输入J就会变成K 给定一串大写敲错后输入,输出正确的输入(输入保证合法,如输入中不会出现Q,A,Z): 解题思路 ...
UVA11324 强连通+dp记忆化搜索
题意:对于一个有向图,问最大团中有多少点,要求该点集内所有点对间至少有一条路径(u到v或v到u或两条都有). 首先,对于每一个强连通分量,其中的所有点必然能够互相到达,所以先进行缩点,然后对于缩点后的 ...
makefile基础实例讲解分类： C/C++ 2015-03-16 10:11 66人阅读评论(0) 收藏
一.makefile简介定义:makefile定义了软件开发过程中,项目工程编译链.接接的方法和规则. 产生:由IDE自动生成或者开发者手动书写. 作用:Unix(MAC OS.Solars)和Li ...
php会话(session)生命周期概念介绍及设置更改和回收
http://www.169it.com/article/8429580816135935852.html https://my.oschina.net/jiec/blog/227252 sessi ...
javascript 遍历object对象
(function(){ var str = ''; for(var i in obj){ //遍历object str += '\n'+(i+' : '+obj[i]); // i+' : '+ob ...
使用SQL Server存储ASP.NET Session变量
创建和配置ASP.NET Session状态数据库在基于NLB(网络负载平衡)环境下的ASP.NET Web应用程序开发,我们需要将Session存储在数据库中供多个Web应用程序调用,以下为配置方 ...
009. C#中的WebBrowser控件的属性、方法及操作演示代码(转)
本文转自 http://www.open-open.com/code/view/1430559996802 0.常用方法 Navigate(string urlString):浏览urlString表 ...
ASP.NET GridView HyperLinkField传值和取值【转】
来源:http://www.cnblogs.com/junjie94wan/archive/2011/08/17/2143623.html 经常做Winform程序,好久没有做WEB都有些生疏了,Gr ...

Spark on Yarn 架构解析

Spark on Yarn 架构解析的更多相关文章

随机推荐

热门专题