先抛出问题:Spark on Yarn有cluster和client两种模式,它们有什么区别? 用Jupyter写Spark时,只能使用client模式,为什么?

写一篇文章,搞清楚 Spark on Yarn 的运行原理,同时回答上面的问题。

首先,把Spark和Yarn当做两个独立概念来看。单看Spark,不去管它底层依赖的存储结构,本质上讲,它就是个分布式计算的程序。程序的入口是一个叫做 SparkContext 的对象,也可以抽象地称为Driver,启动了 SparkContext 后,就可以运行各种Spark方法(比如 map,filter)。运行方法时,Spark会把每次执行分解成若干个Task,分发给若干个Executor执行,Executor是执行Task的进程,执行后的结果汇总到一起,返回给 SparkContext。Spark 本质上也是一个map+reduce的过程,与Hadoop不同的是,Spark会先把数据存储到内存中,这样处理速度会比Hadoop快大约两个数量级。

这么多的Executor进程是怎么来的?

是Yarn分配的。(注:还有其他资源管理框架,比如 Moses,这里先不管它。)

总结起来就是:Spark是一套可以运行的代码,代码运行需要资源(计算、存储、网络),Yarn把集群的资源分配一部分给Spark使用。

Yarn本身的运行方式是:Yarn把集群的节点分为两类,一类是Master,运行的进程叫ResourceManager(简称RM),另一类是Worker,运行的进程叫NodeManager(简称NM),NM可以在本机内分配资源,生成若干个Container(不熟悉容器的同学可以把Container近似理解为虚拟机)。Yarn的运行过程是,RM接受外部的资源申请(可以来自Hadoop、Spark或其他进程),按照要求分配资源,然后把对应的资源分配计划通知各个NM,NM收到自己的分配计划,按计划在本地启动若干个Container。

Spark和Yarn各自介绍完毕。

Spark on Yarn就是把上述过程结合起来,Yarn在底层,Spark在上层,也就是说,我们在写Spark代码时不需要操作Yarn,只需要设置好Spark的资源参数,Yarn会按照Spark的资源参数去分配资源,然后提供给Spark使用。

Spark on Yarn 的运行过程是:SparkContext运行起来,设置资源参数,Yarn中会为每个Spark App启动一个Container,叫做App Master,由App Master把资源参数发送给RM,RM通知若干个NM,启动若干个Container,每个Container内部都运行一个Executor,对,就是Spark中的Executor,这样Spark 和 Yarn 就结合起来了。

这里给出一个Spark on Yarn的资源参数配置示例:

conf = SparkConf().setMaster('yarn-client').setAppName('test')
conf.set('spark.executor.instances',10)
conf.set('spark.executor.cores',1)
conf.set('spark.executor.memory','2g')
conf.set("spark.driver.memory", "2g")
conf.set("spark.driver.maxResultSize", "")

Spark on Yarn的原理都清楚了,下面要解决开头提出的问题了:Spark on Yarn 的 cluster 和 client 模式有什么区别?为什么Jupyter只能用client模式?

对比cluster和client,从名字就可以看出,前者是分布式的,后者是本地化的。具体区别就在于上面的红字:App Master的作用不同。

在cluster模式中,SparkContext运行在App Master所在的Container中,也就是说,在初始化Spark程序时,我们不知道SparkContext会运行在哪个节点,由RM分配一个Container作为App Master后,SparkContext运行在这个Container中,Spark程序的运行与我们在哪个节点启动它没有关系。

相对地,在client模式中,SparkContext运行在启动SparkContext的节点上,所有与Spark有关的调度工作都在这个节点上运行(注意:不是在这个节点的Container上),App Master只在向RM申请资源时起到了作用,之后就它什么事了,除非资源需要发生变化。

到这里,我们就能明白为什么Jupyter必须使用client模式了,因为Jupyter是运行在节点上的进程,只能和本地节点的内存实现数据交互,为了能够获取到spark运行过程中的变量,Jupyter必须采用Client模式,让spark程序的变量值存储在节点的内存中。

参考资料:

https://www.cnblogs.com/tgzhu/p/5818374.html

基础概念 之 Spark on Yarn的更多相关文章

  1. Spark集群基础概念 与 spark架构原理

    一.Spark集群基础概念 将DAG划分为多个stage阶段,遵循以下原则: 1.将尽可能多的窄依赖关系的RDD划为同一个stage阶段. 2.当遇到shuffle操作,就意味着上一个stage阶段结 ...

  2. 【原创】大数据基础之Spark(2)Spark on Yarn:container memory allocation容器内存分配

    spark 2.1.1 最近spark任务(spark on yarn)有一个报错 Diagnostics: Container [pid=5901,containerID=container_154 ...

  3. Spark on Yarn年度知识整理

    大数据体系结构: Spark简介 Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如f ...

  4. Flink入门-第一篇:Flink基础概念以及竞品对比

    Flink入门-第一篇:Flink基础概念以及竞品对比 Flink介绍 截止2021年10月Flink最新的稳定版本已经发展到1.14.0 Flink起源于一个名为Stratosphere的研究项目主 ...

  5. Spark on Yarn 架构解析

    . 一.Hadoop Yarn组件介绍: 我们都知道yarn重构根本的思想,是将原有的JobTracker的两个主要功能资源管理器 和 任务调度监控 分离成单独的组件.新的架构使用全局管理所有应用程序 ...

  6. Flink资料(1)-- Flink基础概念(Basic Concept)

    Flink基础概念 本文描述Flink的基础概念,翻译自https://ci.apache.org/projects/flink/flink-docs-release-1.0/concepts/con ...

  7. Hadoop基础概念介绍

    基于YARN的配置信息, 参见: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ hadoop入门 - 基础概念 ...

  8. 大数据基础知识问答----spark篇,大数据生态圈

    Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...

  9. Spark On Yarn的两种模式yarn-cluster和yarn-client深度剖析

    Spark On Yarn的优势 每个Spark executor作为一个YARN容器(container)运行.Spark可以使得多个Tasks在同一个容器(container)里面运行 1. Sp ...

随机推荐

  1. 获得android手机的联网状态

    获得android手机的联网状态   在Android平台上开发基于网络的应用,必然需要去判断当前的网络连接情况.下面的代码,作为例子,详细说明了对于当前网络情况的判断. 先看一个自己定义的应用类. ...

  2. 基本上每个应用程序领域的程序员都有使用 C++

    C++ 的使用基本上每个应用程序领域的程序员都有使用 C++. C++ 通常用于编写设备驱动程序和其他要求实时性的直接操作硬件的软件. C++ 广泛用于教学和研究. 任何一个使用苹果电脑或 Windo ...

  3. win7cmd静态绑定arp

    netsh -c "172.16.3.1" "f4-ea-67-8b-91-cc"

  4. Spring-Condition设置

    为了满足不同条件下生成更为合适的bean,可以使用condition配置其条件.假如有一个bean,id为magicBean,只有当其具有magic属性时才生成,方法如下: javaConfig模式: ...

  5. jQuery-修改元素属性

    1.attr方法 获取匹配的元素集合中的第一个元素的属性的值 或 设置匹配元素指定的属性 使用说明: 1)只传一个参数的情况: 1>字符串(属性名称) 只传一个字符串属性名称 表示获取匹配的元素 ...

  6. TTreeView TTreeNodes TTreeNode

    TTreeView 填写 TTreeView 的内容一般是这样开始的(下图), 不过我觉得最好习惯用动态建立. 打个比方: 譬如 TreeView 是一个军营的"营部"! 这里会有 ...

  7. Unity文件操作路径

    Unity3D中的资源路径: Application.dataPath:此属性用于返回程序的数据文件所在文件夹的路径.例如在Editor中就是Assets了. Application.streamin ...

  8. Unity延迟和重复调用方法

    延迟调用方法 Invoke(arg1,arg2) arg1 是延迟调用的字符串方法名,arg2是延迟多少时间调用arg1 方法. 重复调用方法 InvokeRepeating(arg1,arg2,ar ...

  9. Win7配置SVN详细步骤(服务器和客户端)

    下载并安装服务器端SVN  VisualSVN Server 下载并安装客户端SVN  TortoiseSVN 创建SVN库 在C盘创建文件夹MySVN(可自由命名),打开文件夹----右键Torto ...

  10. PHPCMS v9在后台文章管理列表添加类别

    进入PHPCMS v9后台—内容,进入PHPCMS的文章管理列表,要实现在文章标题前显示文章类别,就是可以直接在文章列表里看到类别,不需要点击进入编辑页面才可以看到,如下图: PHPCMS v9在后台 ...