理解Spark运行模式（一）(Yarn Client)

Spark运行模式有Local,STANDALONE,YARN,MESOS,KUBERNETES这5种，其中最为常见的是YARN运行模式，它又可分为Client模式和Cluster模式。这里以Spark自带的SparkPi来说明这些运行模式。

本文作为第一篇，先结合SparkPi程序来说明Yarn Client方式的流程。

以下是Spark中examples下的SparkPi程序。

 // scalastyle:off println

 package org.apache.spark.examples

 import scala.math.random

 import org.apache.spark.sql.SparkSession

 /** Computes an approximation to pi */

 object SparkPi {

   def main(args: Array[String]) {

     val spark = SparkSession

       .builder

       .appName("Spark Pi")

       .getOrCreate()

     val slices = if (args.length > 0) args(0).toInt else 2

     val n = math.min(100000L * slices, Int.MaxValue).toInt // avoid overflow

     val count = spark.sparkContext.parallelize(1 until n, slices).map { i =>

       val x = random * 2 - 1

       val y = random * 2 - 1

       if (x*x + y*y <= 1) 1 else 0

     }.reduce(_ + _)

     println(s"Pi is roughly ${4.0 * count / (n - 1)}")

     spark.stop()

   }

 }

 // scalastyle:on println

这个是Spark用于计算圆周率PI的scala程序，思想很简单，就是利用以坐标轴原点为中心画一个边长为2的正方形，原点距离正方形的上下左右边距离均为1，然后再以原点为中心画一个半径为1的圆，此时正方形的面积是4，圆的面积是PI，上面程序所做的就是在正方形里随机取若干个点（比如上面程序默认的20万），计算有多少个点落在圆形里面，那么可以认为这个等式是成立的，即：“圆面积” / “正方形面积” = “落在圆内的点数” / “正方形内的点数”，也就是，PI / 4 = count / (n-1)，所以PI = 4 * count / (n-1)。

Spark程序可以分为Driver部分和Executor部分，Driver可以认为是程序的master部分，具体而言1~16行和22~25行都是Driver部分，其余的17~21行是Executor部分，即执行具体逻辑计算的部分，上面程序slices默认是2，也就是说，默认会有2个Task来执行计算。

下面来以yarn client方式来执行这个程序，注意执行程序前先要启动hdfs和yarn，最好同时启动spark的history server，这样即使在程序运行完以后也可以从Web UI中查看到程序运行情况。

输入以下命令：

[root@BruceCentOS4 spark]# $SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

以下是程序运行输出信息部分截图，

开始部分：

中间部分：

结束部分：

由于程序是以yarn client方式运行的，因此Driver是运行在客户端的(BruceCentOS4上的SparkSubmit进程），同时在BruceCentOS和BruceCentOS3上各运行了1个Executor进程（进程名字：CoarseGrainedExecutorBackend），另外在BruceCentOS上还有1个名字为ExecutorLauncher的进程，这个进程主要是作为Yarn程序中的ApplicationMaster，因为Driver运行在客户端，它仅仅作为ApplicationMaster为运行Executor向ResourceManager申请资源。

SparkUI上的Executor信息：

BruceCentOS4上的客户端进程（包含Spark Driver）：

BruceCentOS上的ApplicationMaster和Executor：

BruceCentOS3上的Executor：

下面具体描述下Spark程序在yarn client模式下运行的具体流程。

这里是一个流程图：

Spark Yarn Client向YARN的ResourceManager申请启动ApplicationMaster。同时在SparkContent初始化中将创建DAGScheduler和TASKScheduler等，由于我们选择的是Yarn-Client模式，程序会选择YarnClientSchedulerBackend。
ResourceManager收到请求后，在集群中选择一个NodeManager，为该应用程序分配第一个Container，要求它在这个Container中启动应用程序的ApplicationMaster，对应进程名字是ExecutorLauncher。与YARN-Cluster区别的是在该ApplicationMaster不运行SparkContext，只与SparkContext进行联系进行资源的分派。
Client中的SparkContext初始化完毕后，与ApplicationMaster建立通讯，向ResourceManager注册，根据任务信息向ResourceManager申请资源（Container）。
一旦ApplicationMaster申请到资源（也就是Container）后，便与对应的NodeManager通信，要求它在获得的Container中启动CoarseGrainedExecutorBackend，CoarseGrainedExecutorBackend启动后会向Client中的SparkContext注册并申请Task。
client中的SparkContext分配Task给CoarseGrainedExecutorBackend执行，CoarseGrainedExecutorBackend运行Task并向Driver汇报运行的状态和进度，以让Client随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。
应用程序运行完成后，Client的SparkContext向ResourceManager申请注销并关闭自己。

以上就是个人对Spark运行模式(yarn client)的一点理解，其中参考了“求知若渴虚心若愚”博主的“Spark(一): 基本架构及原理”的部分内容（其中基于Spark2.3.0对某些细节进行了修正），在此表示感谢。

理解Spark运行模式（一）(Yarn Client)的更多相关文章

理解Spark运行模式（二）(Yarn Cluster)
上一篇说到Spark的yarn client运行模式,它与yarn cluster模式的主要区别就是前者Driver是运行在客户端,后者Driver是运行在yarn集群中.yarn client模式一 ...
理解Spark运行模式（三）(STANDALONE和Local)
前两篇介绍了Spark的yarn client和yarn cluster模式,本篇继续介绍Spark的STANDALONE模式和Local模式. 下面具体还是用计算PI的程序来说明,examples中 ...
spark运行模式之二：Spark的Standalone模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
spark运行模式之一：Spark的local模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
Spark运行模式与Standalone模式部署
上节中简单的介绍了Spark的一些概念还有Spark生态圈的一些情况,这里主要是介绍Spark运行模式与Spark Standalone模式的部署: Spark运行模式在Spark中存在着多种运行模 ...
spark运行模式
一.Spark运行模式 Spark有以下四种运行模式: local:本地单进程模式,用于本地开发测试Spark代码; standalone:分布式集群模式,Master-Worker架构,Master ...
Spark运行模式概述
Spark编程模型的回顾 spark编程模型几大要素 RDD的五大特征 Application program的组成运行流程概述具体流程(以standalone模式为例) 任务调度 DAGSche ...
Spark运行模式_基于YARN的Resource Manager的Custer模式（集群）
使用如下命令执行应用程序: 和"基于YARN的Resource Manager的Client模式(集群)"运行模式,区别如下: 在Resource Manager端提交应用程序,会 ...
Spark运行模式：cluster与client
When run SparkSubmit --class [mainClass], SparkSubmit will call a childMainClass which is 1. client ...

随机推荐

Python3之多线程学习
这里做一个自己复习多线程的笔记 Python中使用线程有两种方式:函数或者用类来包装线程对象. 函数式:调用 _thread 模块中的start_new_thread()函数来产生新线程.语法如下: ...
【OUC2019写作】学术论文写作第九小组第一次博客作业
个人简介潘旻琦:我是潘旻琦:我的爱好是游泳:羊肉泡馍是海大食堂中我最喜欢的一道菜(清真食堂):一句想说的话是:“追随本心,坚持不懈”. 郭念帆:我是郭念帆:我的爱好是足球:海大食堂中最喜欢的一道菜偏 ...
python里怎么查看数据类型
python里怎么查看数据类型? python里可以通过type()函数来查看数据类型. Python 内置函数 Python 内置函数 Python type() 函数如果你只有第一个参数则返回对象 ...
浏览器标签tab窗口切换时事件状态侦听
做到是大屏项目,用的websocket,在浏览器切换标签窗口后,过了一段时间回来,页面会非常卡,所以想页面切回来的时候刷新页面,找到了这个方法,这是原来的例子.这段代码可以自己复制去做下测试 var ...
小白学 Python（7）：基础流程控制（上）
人生苦短,我选Python 前文传送门小白学 Python(1):开篇小白学 Python(2):基础数据类型(上) 小白学 Python(3):基础数据类型(下) 小白学 Python(4):变 ...
springboot 打jar包时分离配置文件
修改pom.xml文件 <build> <resources> <resource> <directory>src/main/resources< ...
java实现,使用opencv合成全景图,前端使用krpano展示
这周花三天做了一demo,算上之前的,怎么也有五天,上一篇是opencv介绍,以及定义native方法,通过本地图片路径传参,底层调用Opencv图像库合成,有兴趣的可以看看,这篇重点在于krpano ...
GC 知识点补充——CMS
之前已经讲过了不少有关 GC 的内容,今天准备将之前没有细讲的部分进行补充,首先要提到的就是垃圾收集器. 基础的回收方式有三种:清除.压缩.复制,衍生出来的垃圾收集器有: Serial 收集器新生代 ...
intellij idea - Project Structure 项目结构详解（简单明了）
IDEA Project Structure 设置可以点击按钮,或者使用快捷键 Ctrl + Shift + Alt + S 打开 Project Structure .如下如所示: 项目的左 ...
php curl 生成的cookie 文件含义 cookie 属性含义
最近用了curl 感觉还是很方便的,看了下curl生成的 cookie 文件格式 , 对其中一些值的含义不是很明白,去找了些cookie的资料看了下,做下备忘 PHP curl 生成的 cooki ...

理解Spark运行模式（一）(Yarn Client)

理解Spark运行模式（一）(Yarn Client)的更多相关文章

随机推荐

热门专题