基础概念之 Spark on Yarn

先抛出问题：Spark on Yarn有cluster和client两种模式，它们有什么区别？用Jupyter写Spark时，只能使用client模式，为什么？

写一篇文章，搞清楚 Spark on Yarn 的运行原理，同时回答上面的问题。

首先，把Spark和Yarn当做两个独立概念来看。单看Spark，不去管它底层依赖的存储结构，本质上讲，它就是个分布式计算的程序。程序的入口是一个叫做 SparkContext 的对象，也可以抽象地称为Driver，启动了 SparkContext 后，就可以运行各种Spark方法（比如 map,filter）。运行方法时，Spark会把每次执行分解成若干个Task，分发给若干个Executor执行，Executor是执行Task的进程，执行后的结果汇总到一起，返回给 SparkContext。Spark 本质上也是一个map+reduce的过程，与Hadoop不同的是，Spark会先把数据存储到内存中，这样处理速度会比Hadoop快大约两个数量级。

这么多的Executor进程是怎么来的？

是Yarn分配的。（注：还有其他资源管理框架，比如 Moses，这里先不管它。）

总结起来就是：Spark是一套可以运行的代码，代码运行需要资源（计算、存储、网络），Yarn把集群的资源分配一部分给Spark使用。

Yarn本身的运行方式是：Yarn把集群的节点分为两类，一类是Master，运行的进程叫ResourceManager（简称RM），另一类是Worker，运行的进程叫NodeManager（简称NM），NM可以在本机内分配资源，生成若干个Container（不熟悉容器的同学可以把Container近似理解为虚拟机）。Yarn的运行过程是，RM接受外部的资源申请（可以来自Hadoop、Spark或其他进程），按照要求分配资源，然后把对应的资源分配计划通知各个NM，NM收到自己的分配计划，按计划在本地启动若干个Container。

Spark和Yarn各自介绍完毕。

Spark on Yarn就是把上述过程结合起来，Yarn在底层，Spark在上层，也就是说，我们在写Spark代码时不需要操作Yarn，只需要设置好Spark的资源参数，Yarn会按照Spark的资源参数去分配资源，然后提供给Spark使用。

Spark on Yarn 的运行过程是：SparkContext运行起来，设置资源参数，Yarn中会为每个Spark App启动一个Container，叫做App Master，由App Master把资源参数发送给RM，RM通知若干个NM，启动若干个Container，每个Container内部都运行一个Executor，对，就是Spark中的Executor，这样Spark 和 Yarn 就结合起来了。

这里给出一个Spark on Yarn的资源参数配置示例：

conf = SparkConf().setMaster('yarn-client').setAppName('test')

conf.set('spark.executor.instances',10)

conf.set('spark.executor.cores',1)

conf.set('spark.executor.memory','2g')

conf.set("spark.driver.memory", "2g")

conf.set("spark.driver.maxResultSize", "")

Spark on Yarn的原理都清楚了，下面要解决开头提出的问题了：Spark on Yarn 的 cluster 和 client 模式有什么区别？为什么Jupyter只能用client模式？

对比cluster和client，从名字就可以看出，前者是分布式的，后者是本地化的。具体区别就在于上面的红字：App Master的作用不同。

在cluster模式中，SparkContext运行在App Master所在的Container中，也就是说，在初始化Spark程序时，我们不知道SparkContext会运行在哪个节点，由RM分配一个Container作为App Master后，SparkContext运行在这个Container中，Spark程序的运行与我们在哪个节点启动它没有关系。

相对地，在client模式中，SparkContext运行在启动SparkContext的节点上，所有与Spark有关的调度工作都在这个节点上运行（注意：不是在这个节点的Container上），App Master只在向RM申请资源时起到了作用，之后就它什么事了，除非资源需要发生变化。

到这里，我们就能明白为什么Jupyter必须使用client模式了，因为Jupyter是运行在节点上的进程，只能和本地节点的内存实现数据交互，为了能够获取到spark运行过程中的变量，Jupyter必须采用Client模式，让spark程序的变量值存储在节点的内存中。

参考资料：

https://www.cnblogs.com/tgzhu/p/5818374.html

基础概念之 Spark on Yarn的更多相关文章

Spark集群基础概念与 spark架构原理
一.Spark集群基础概念将DAG划分为多个stage阶段,遵循以下原则: 1.将尽可能多的窄依赖关系的RDD划为同一个stage阶段. 2.当遇到shuffle操作,就意味着上一个stage阶段结 ...
【原创】大数据基础之Spark（2）Spark on Yarn：container memory allocation容器内存分配
spark 2.1.1 最近spark任务(spark on yarn)有一个报错 Diagnostics: Container [pid=5901,containerID=container_154 ...
Spark on Yarn年度知识整理
大数据体系结构: Spark简介 Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如f ...
Flink入门-第一篇：Flink基础概念以及竞品对比
Flink入门-第一篇:Flink基础概念以及竞品对比 Flink介绍截止2021年10月Flink最新的稳定版本已经发展到1.14.0 Flink起源于一个名为Stratosphere的研究项目主 ...
Spark on Yarn 架构解析
. 一.Hadoop Yarn组件介绍: 我们都知道yarn重构根本的思想,是将原有的JobTracker的两个主要功能资源管理器和任务调度监控分离成单独的组件.新的架构使用全局管理所有应用程序 ...
Flink资料（1）-- Flink基础概念（Basic Concept）
Flink基础概念本文描述Flink的基础概念,翻译自https://ci.apache.org/projects/flink/flink-docs-release-1.0/concepts/con ...
Hadoop基础概念介绍
基于YARN的配置信息, 参见: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ hadoop入门 - 基础概念 ...
大数据基础知识问答----spark篇，大数据生态圈
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...
Spark On Yarn的两种模式yarn-cluster和yarn-client深度剖析
Spark On Yarn的优势每个Spark executor作为一个YARN容器(container)运行.Spark可以使得多个Tasks在同一个容器(container)里面运行 1. Sp ...

随机推荐

控件EditText
(一)监听EditText输入内容变化 EditText.addTextChangedListener(textWatcher); //EditText change listener //此方 ...
【转】C# 调用WebService的方法
很少用C#动态的去调用Web Service,一般都是通过添加引用的方式,这样的话是自动成了代理,那么动态代理调用就是我们通过代码去调用这个WSDL,然后自己去生成客户端代理.更多的内容可以看下面的两 ...
【C#】【MySQL】C# 查询数据库语句@Row:=@Row+1以及执行存储过程失败解决方案
如何实现数据库查询产生虚拟的一列序号的功能: ) )AS r; 该语句可以实现产生虚拟的一列数据在MySQL中运行没有问题. 但是在C#里面调用去出现了错误"Parameter '@ROW' ...
MongoDB C Driver Building on Windows
一.编译mongodb c driver: 需要先安装OpenSSL:(参见:http://bbs.aircheng.com/read-2222-1) 步骤:(MongoDB步) 1.下载Active ...
javascript -- js正则表达式
正则表达式可以: 1.测试字符串的某个模式.例如,可以对一个输入字符串进行测试,看在该字符串是否存在一个电话号码模式或一个信用卡号码模式.这称为数据有效性验证 2.替换文本.可以在文档中使用一个正则 ...
【转】Linux内核源码分析方法
一.内核源码之我见 Linux内核代码的庞大令不少人“望而生畏”,也正因为如此,使得人们对Linux的了解仅处于泛泛的层次.如果想透析Linux,深入操作系统的本质,阅读内核源码是最有效的途径.我们都 ...
Supervision 行为模式
官方链接:http://erlang.org/doc/man/supervisor.html http://erlang.org/doc/design_principles/sup_princ.htm ...
perl 中的哈希赋值
在perl 中,通过代码动态的给哈希赋值,是最常见的应用场景,但是有些情况下,我们事先知道一些信息,当需要把这些信息存放进一个哈希的时候,直接给哈希赋值就好: 哈希的key不用说,就是一个字符串,关键 ...
js焦点轮播图
汇集网上焦点轮播图的实现方式,自己试了下,不过鼠标悬浮停止动画和鼠标离开动画播放好像没生效,不太明白,最后两行代码中,为什么可以直接写stop和play.不用加括号调用函数么?求懂的大神指点! 所用知 ...
SQL 2005 如何只安装客户端？
在“注册信息”输入合适的用户名和公司后,点击[下一步],在“要安装的组件”界面中选择要安装的组件:根据我们的需要来选择要安装的组件(各组件的说明如下表),这里我勾选所有的组件:我们可以点击 [高级 ...

基础概念 之 Spark on Yarn

基础概念 之 Spark on Yarn的更多相关文章

随机推荐

热门专题

基础概念之 Spark on Yarn

基础概念之 Spark on Yarn的更多相关文章