理解Spark运行模式（三）(STANDALONE和Local)

前两篇介绍了Spark的yarn client和yarn cluster模式，本篇继续介绍Spark的STANDALONE模式和Local模式。

下面具体还是用计算PI的程序来说明，examples中该程序有三个版本，分别采用Scala、Python和Java语言编写。本次用Java程序JavaSparkPi做说明。

 package org.apache.spark.examples;

 import org.apache.spark.api.java.JavaRDD;

 import org.apache.spark.api.java.JavaSparkContext;

 import org.apache.spark.sql.SparkSession;

 import java.util.ArrayList;

 import java.util.List;

 /**

  * Computes an approximation to pi

  * Usage: JavaSparkPi [partitions]

  */

 public final class JavaSparkPi {

   public static void main(String[] args) throws Exception {

     SparkSession spark = SparkSession

       .builder()

       .appName("JavaSparkPi")

       .getOrCreate();

     JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());

     int slices = (args.length == 1) ? Integer.parseInt(args[0]) : 2;

     int n = 100000 * slices;

     List<Integer> l = new ArrayList<>(n);

     for (int i = 0; i < n; i++) {

       l.add(i);

     }

     JavaRDD<Integer> dataSet = jsc.parallelize(l, slices);

     int count = dataSet.map(integer -> {

       double x = Math.random() * 2 - 1;

       double y = Math.random() * 2 - 1;

       return (x * x + y * y <= 1) ? 1 : 0;

     }).reduce((integer, integer2) -> integer + integer2);

     System.out.println("Pi is roughly " + 4.0 * count / n);

     spark.stop();

   }

 }

程序逻辑与之前的Scala和Python程序一样，就不再多做说明了。对比Scala、Python和Java程序，同样计算PI的逻辑，程序分别是26行、30行和43行，可以看出编写Spark程序，使用Scala或者Python比Java来得更加简洁，因此推荐使用Scala或者Python编写Spark程序。

下面来以STANDALONE方式来执行这个程序，执行前需要启动Spark自带的集群服务（在master上执行$SPARK_HOME/sbin/start-all.sh），最好同时启动spark的history server，这样即使在程序运行完以后也可以从Web UI中查看到程序运行情况。启动Spark的集群服务后，会在master主机和slave主机上分别出现Master守护进程和Worker守护进程。而在Yarn模式下，就不需要启动Spark的集群服务，只需要在客户端部署Spark即可，而STANDALONE模式需要在集群每台机器都部署Spark。

输入以下命令：

[root@BruceCentOS4 jars]# $SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master spark://BruceCentOS.Hadoop:7077 $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

以下是程序运行输出信息部分截图，

开始部分：

中间部分：

结束部分：

从上面的程序输出信息科看出，Spark Driver是运行在客户端BruceCentOS4上的SparkSubmit进程当中的，集群是Spark自带的集群。

SparkUI上的Executor信息：

BruceCentOS4上的客户端进程（包含Spark Driver）：

BruceCentOS3上的Executor进程：

BruceCentOS上的Executor进程：

BruceCentOS2上的Executor进程：

下面具体描述下Spark程序在standalone模式下运行的具体流程。

这里是一个流程图：

SparkContext连接到Master，向Master注册并申请资源（CPU Core 和Memory）。
Master根据SparkContext的资源申请要求和Worker心跳周期内报告的信息决定在哪个Worker上分配资源，然后在该Worker上获取资源，然后启动CoarseGrainedExecutorBackend。
CoarseGrainedExecutorBackend向SparkContext注册。
SparkContext将Applicaiton代码发送给CoarseGrainedExecutorBackend；并且SparkContext解析Applicaiton代码，构建DAG图，并提交给DAG Scheduler分解成Stage（当碰到Action操作时，就会催生Job；每个Job中含有1个或多个Stage，Stage一般在获取外部数据和shuffle之前产生），然后以Stage（或者称为TaskSet）提交给Task Scheduler，Task Scheduler负责将Task分配到相应的Worker，最后提交给CoarseGrainedExecutorBackend执行。
CoarseGrainedExecutorBackend会建立Executor线程池，开始执行Task，并向SparkContext报告，直至Task完成。
所有Task完成后，SparkContext向Master注销，释放资源。

最后来看Local运行模式，该模式就是在单机本地环境执行，主要用于程序测试。程序的所有部分，包括Client、Driver和Executor全部运行在客户端的SparkSubmit进程当中。Local模式有三种启动方式。

#启动1个Executor运行任务（1个线程）

[root@BruceCentOS4 ~]#$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master local $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

#启动N个Executor运行任务（N个线程），这里N=2

[root@BruceCentOS4 ~]#$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master local[2] $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

#启动*个Executor运行任务（*个线程），这里*指代本地机器上的CPU核的个数。

[root@BruceCentOS4 ~]#$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master local[*] $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

以上就是个人对Spark运行模式(STANDALONE和Local)的一点理解，其中参考了“求知若渴虚心若愚”博主的“Spark(一): 基本架构及原理”的部分内容（其中基于Spark2.3.0对某些细节进行了修正），在此表示感谢。

理解Spark运行模式（三）(STANDALONE和Local)的更多相关文章

Spark运行模式与Standalone模式部署
上节中简单的介绍了Spark的一些概念还有Spark生态圈的一些情况,这里主要是介绍Spark运行模式与Spark Standalone模式的部署: Spark运行模式在Spark中存在着多种运行模 ...
理解Spark运行模式（二）(Yarn Cluster)
上一篇说到Spark的yarn client运行模式,它与yarn cluster模式的主要区别就是前者Driver是运行在客户端,后者Driver是运行在yarn集群中.yarn client模式一 ...
理解Spark运行模式（一）(Yarn Client)
Spark运行模式有Local,STANDALONE,YARN,MESOS,KUBERNETES这5种,其中最为常见的是YARN运行模式,它又可分为Client模式和Cluster模式.这里以Spar ...
spark运行模式之二：Spark的Standalone模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
spark运行模式之一：Spark的local模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
spark运行模式
一.Spark运行模式 Spark有以下四种运行模式: local:本地单进程模式,用于本地开发测试Spark代码; standalone:分布式集群模式,Master-Worker架构,Master ...
Scala进阶之路-Spark独立模式（Standalone）集群部署
Scala进阶之路-Spark独立模式(Standalone)集群部署作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们知道Hadoop解决了大数据的存储和计算,存储使用HDFS ...
Spark运行模式概述
Spark编程模型的回顾 spark编程模型几大要素 RDD的五大特征 Application program的组成运行流程概述具体流程(以standalone模式为例) 任务调度 DAGSche ...
Vsftpd运行的两种模式-xinetd运行模式和 standalone模式
vsftpd运行的两种模式-xinetd运行模式和 standalone模式 vsftpd提供了standalone和inetd(inetd或xinetd)两种运行模式. standalone一次性启 ...

随机推荐

PMBOK(第六版) PMP笔记——《十一》第十一章（项目风险管理）
PMBOK(第六版) PMP笔记——<十一>第十一章(项目风险管理) 第十一章风险管理: 项目的独特性导致项目充满风险,项目风险是一种不确定的事件或条件,可能发生.将要发生,也可能不发 ...
opencv::Laplance算子
Laplance算子理论:在二阶导数的时候,最大变化处的值为零即边缘是零值.通过二阶导数计算,依据此理论我们可以计算图像二阶导数,提取边缘. 拉普拉斯算子(Laplance operator) 处理 ...
Mybatis源码阅读之玩转Executor
承接上篇博客, 本文探究MyBatis中的Executor, 如下图: 是Executor体系图本片博客的目的就是探究如上图中从顶级接口Executor中拓展出来的各个子执行器的功能,以及进一步了解 ...
LeetCode刷题总结-递归篇
递归是算法学习中很基本也很常用的一种方法,但是对于初学者来说比较难以理解(PS:难点在于不断调用自身,产生多个返回值,理不清其返回值的具体顺序,以及最终的返回值到底是哪一个?).因此,本文将选择Lee ...
判断浏览器是否支持指定CSS属性和指定值
/** * @param attrName 属性名 * @param attrVal 属性值 * @returns {boolean} */ function isCssAttrSupported(a ...
文件的处理(day09整理)
目录昨日回顾二十八.字符编码 1.什么是字符编码 2.字符编码的发展史 3.gbk和gb2312 二十九.python2和python3的区别 python解释器启动的流程今日内容三十.文件处 ...
（记录）Ubuntu系统中运行需要导入jar包的Java程序
在学习Redis的过程中,在学到Redis客户端Jedis的时候,考虑到能不能在ubuntu下用Vim编写Java程序并且能够运行呢? 于是,首先在网上调研了一番用Vim写Java程序的可实现性. 相 ...
css简介以及css的添加方法
什么是css? CSS是Cascading Style Sheets的简称,CSS是用来美化网页中文称为层叠样式表,用来控制网页数据的表现,可以使网页的表现与数据内容分离. css的基本语法 1.选择 ...
srync：@ERROR: auth failed on module tee 的解决办法分析
首先:检查server端和client端的用户名和密码确认都无误: 然后:检查了服务器端/etc/rsyncd.conf 配置文件未发现异常, 再次:通过配置文件找到了log存放目录 $ cat /e ...
Java基础系列1：Java面向对象
该系列博文会告诉你如何从入门到进阶,一步步地学习Java基础知识,并上手进行实战,接着了解每个Java知识点背后的实现原理,更完整地了解整个Java技术体系,形成自己的知识框架. 概述: Java是面 ...

理解Spark运行模式（三）(STANDALONE和Local)

理解Spark运行模式（三）(STANDALONE和Local)的更多相关文章

随机推荐

热门专题