Spark 的官方从 Cluster Mode Overview 中,官方向我们介绍了 cluster 模式的部署方式。

Spark 作为独立进程在集群上运行,他们通过 SparkContext 进行协调。

SparkContext 可以通过多种方式来连接 Cluster Managers 资源调度器。我们先来看下这个集群模式的架构图

首先我要神明一点 standalone 也是集群模式的一种。只是说他不是通过第三方调度器比如 Yarn | Mesos  。我一直被这个名字误导,一直觉得是不是 alone 就是单机模式的意思?其实不是,他是 spark 在没有第三方调度器的情况下,自己对资源进行申请调度的一种方式。采用这种方式会有一个 Driver Program 作为 master 负责调度资源。

不管我们选用哪种第三方调度器,我们都会在获得资源之后申请 executor ,在使用 yarn 的情况下这些 executor 会分散在集群中各个  application_master 上面。

这些 spark 的 executor 会处理计算并存储你的应用信息。这个时候申请好 executor 之后我们就可以将代码通过 SC 发送到 executor 了。最后 SparkContext 会发送 task 到 executors 里面去 run 。

我们来整理一下上面提到的信息。

首先这种通过第三方调度器的是集群模式。集群模式在申请 SparkContext 的时候有很多种模式,拿 Yarn 举例。

yarn-client客户端模式 连接到 YARN 集群。需要配置 HADOOP_CONF_DIR。
yarn-cluster集群模式 连接到 YARN 集群 。需要配置 HADOOP_CONF_DIR。

这里的 yarn-client 模式简单理解就是说 我们提交任务的机器可以作为 driver 他一般在集群之中。这样的话我们提交任务之后会直接由提交任务的机器充当 driver 角色。drvier 需要在应用的整个运行周期里面都保持连接和存活。

yarn-client 可以理解为一个远程的提交任务的机器时候使用的参数。因为只提交任务,并不在集群种参与计算,也不充当 driver 。所以一般 yarn 会在收到这种模式任务之后,现在集群内部创建一个 driver 然后再开始上面 yarn-client 做的后续工作。

剩下的模式

local 本地单线程
local[K] 本地多线程(指定K个内核)
local[*] 本地多线程(指定所有可用内核)
spark://HOST:PORT 连接到指定的 Spark standalone cluster master,需要指定端口。
mesos://HOST:PORT 连接到指定的 Mesos 集群,需要指定端口。

这些参数都可以在 spark-submit --master local 这个参数里设置。对应 ss 或者 sc 应用的

sc_conf.setMaster('local[4]')

这样的函数设置。

这里注意我们在使用 yarn 的时候如果直接写 yarn ,其实我们使用的是 yarn-client 模式。

这里还有一个关于 Deploy mode glossary

Deploy mode    Distinguishes where the driver process runs. In "cluster" mode, the framework launches the driver inside of the cluster. In "client" mode, the submitter launches the driver outside of the cluster.

如果我需要直接让应用在本地执行,比如我使用 jupyter 调试程序。

当然可以直接在申请资源的时候设置 local

这样的话本地环境比较可控也方便,坑也比较少 美滋滋。

Reference:

https://www.zhihu.com/question/23967309    spark在那里指定master URL呢

https://www.cnblogs.com/ITtangtang/p/7967386.html    Spark On Yarn的两种模式yarn-cluster和yarn-client深度剖析

Spark 部署即提交模式意义解析的更多相关文章

  1. Spark之Yarn提交模式

    一.Client模式 提交命令: ./spark-submit --master yarn --class org.apache.examples.SparkPi ../lib/spark-examp ...

  2. 入门大数据---Spark部署模式与作业提交

    一.作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <ma ...

  3. Spark部署三种方式介绍:YARN模式、Standalone模式、HA模式

    参考自:Spark部署三种方式介绍:YARN模式.Standalone模式.HA模式http://www.aboutyun.com/forum.php?mod=viewthread&tid=7 ...

  4. spark提交模式

    spark基本的提交语句: ./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --depl ...

  5. 【Spark篇】--Spark中Standalone的两种提交模式

    一.前述 Spark中Standalone有两种提交模式,一个是Standalone-client模式,一个是Standalone-master模式. 二.具体         1.Standalon ...

  6. Spark Standalone 提交模式

    一.Client提交模式 提交命令: ./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.Spar ...

  7. spark基于yarn的两种提交模式

    一.spark的三种提交模式 1.第一种,Spark内核架构,即standalone模式,基于Spark自己的Master-Worker集群. 2.第二种,基于YARN的yarn-cluster模式. ...

  8. 小记--------spark的两种提交模式

    spark的两种提交模式:yarn-cluster . yarn-client 图解

  9. Spark 集群 任务提交模式

    Spark 集群的模式及提交任务的方式 本文大致的内容图 Spark 集群的两种模式: Standalone 模式 Standalone-client 任务提交方式 提交命令 ./spark-subm ...

随机推荐

  1. RSA公钥加密私钥解密

    公司的项目需要电科院测评,必须保证数据的完整性和保密性,为这两个特性不得不搞个RSA+SHA1加密. 页面处理过程: 每次登录前,先向后端发送请求,由RSA生成一对公钥和私钥,获取公钥中的模modul ...

  2. PHP-FPM的相关知识的深度解释

    一.需要搞清楚几个名词概念 1.          CGI(Common Gateway Interface,CGI)通用网关接口, 是Web 服务器运行时外部程序的规范,按CGI 编写的程序可以扩展 ...

  3. 2019 珍岛java面试笔试题 (含面试题解析)

      本人5年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.珍岛等公司offer,岗位是Java后端开发,因为发展原因最终选择去了珍岛,入职一年时间了,也成为了面试官,之 ...

  4. 504 Gateway Time-out ( Nginx + PHP ) 解决小计

    问题 最近有个项目,运算量比较大,服务器经常报 504 Gateway Time-out 解决方案 fastcgi_connect_timeout 默认值是 60 第一次尝试修改为 120 ,仍然报5 ...

  5. Ansible--Ansible之Playbook

    Ansible之Playbook Playbook介绍 playbook参考文档 Playbook与ad-hoc相比,是一种完全不同的运用ansible的方式,类似与saltstack的state状态 ...

  6. Typora优化-适合不懂CSS代码的小白

    转载请注明出处:https://www.cnblogs.com/nreg/p/11116176.html  先来一张优化前与优化后的对比图: 优化前: 优化后: 1.通过 文件-偏好设置 打开主题文件 ...

  7. efcore 关联插入

    出现这个错误: at Microsoft.EntityFrameworkCore.DbContext.SaveChanges(Boolean acceptAllChangesOnSuccess) Mi ...

  8. JavaScript基础内容中的函数详解

    函数 函数:即方法 函数就是一段预先设置的功能代码块,可以反复调用,根据输入参数的不同,返回不同的值. 为什么使用函数: 1.方便调用 2.代码重用,利于维护 3.便于修改,便于重构 4.简化逻辑,利 ...

  9. Win10下免安装版MySQL8.0.16的安装和配置

    1.MySQL8.0.16解压 其中dada文件夹和my.ini配置文件是解压后手动加入的,如下图所示 2.新建配置文件my.ini放在D:\Free\mysql-8.0.16-winx64目录下 [ ...

  10. 爬取前程无忧网站上python的招聘信息。

    本文获取的字段有为职位名称,公司名称,公司地点,薪资,发布时间 创建爬虫项目 scrapy startproject qianchengwuyou cd qianchengwuyou scrapy g ...