Spark 宏观架构&执行步骤

Spark 使用主从架构，有一个中心协调器和许多分布式worker。

中心协调器被称为driver。Driver 和被称为executor 的大量分布式worker 通信

Driver 运行在它自己的Java 进程，而每个executor 是单独的Java 进程。Driver

和它的所有executor 一起被称为Spark 应用。

Spark 应用运行在一组使用被称为集群管理器的外部服务的机器上。注意，Spark

打包了一个内置的集群管理器，叫做Standalong 集群管理器。Spark 也可以工作
于Hadoop YARN 和Apache Mesos 这两个开源的集群管理器。

Driver

Driver 是你的程序的main() 方法所在的进程。该进程运行用户代码创建

SparkContext，创建RDD，执行变换和动作。当运行一个Spark Shell，你就创
建了一个driver 程序。一旦driver 终止，整个应用就结束了。
当driver 运行时，它有两个职责：

转换用户程序到任务

Spark 的driver 有责任转换用户程序到被称为任务的物理执行单元。从上层看，

所有的Spark 程序都遵循同样的结构：它们从输入创建RDD，通便变换从这些RDD

得到新的RDD，然后执行动作来采集数据或保存数据。Spark

程序隐含创建了操作的逻辑合理的有向无环图(DAG)。当driver 运行时，它

转换该图到物理执行计划。

Spark 执行多种优化，比如“流水线”映射转换合并，并转换执行图到一组

stage。每个stage 又由一组task 组成。Task 则被捆绑在一起准备被发送到集

群。Task 是Spark 处理中的最小单元。典型的用户程序要执行成百上千个单

独的任务。

调度task 到executor

有了物理执行计划，driver 必须协调各独立任务到executor 中。当excutor 启

动后，它们会将自己注册到driver，所以driver 随时都能看到完整的executor

视图。每个executor 表现为能执行任务和保存RDD 数据的进程。
Spark Driver 会寻找当前的executor 组，然后基于数据分布尝试调度每个task
到合适的位置。当任务执行时，可能会对正缓存的数据有副作用。Driver 也
要记录缓存数据的位置并用来调度将来访问这些数据的任务。
Driver 从web 接口暴露出了这些Spark 应用的运行信息，默认端口是4040。
例如，在本地模式，可用的UI 是http://localhost:4040。

Executors

Spark Executor 是worker 进程，其职责是运行给定的Spark 作业中的单个任务。

Executor 在Spark 应用开始的时候被启动一次，一般会在应用的整个生命周期都

运行。虽然executor 出错了Spark 也可以继续。Executor 有两个任务。一个是运
行构成应用的任务并返回结果到driver。第二个是通过每个executor 中都存在的
被称为块管理器(Block Manager)的服务为用户程序中缓存的RDD 提供内存存
储。因为RDD 被直接缓存在execturo 中，任务可以和数据在一起运行。

Spark 应用在集群运行时的准确步骤

1. 用户用spark-submit 提交了一个应用。
2. spark-submit 启动driver 程序，并调用用户指定的main()方法。
3. driver 程序联系集群管理器请求资源来启动各executor。
4. 集群管理器代表driver 程序启动各executor。
5. Driver 进程运行整个用户应用。程序中基于RDD 的变换和动作，driver 程序
以task 的形式发送到各executor。
6. Task 在executor 进程运行来计算和保存结果。
7. 如果driver 的main()方法退出或者调用了SparkContext.stop()，就会终止
executor 的运行并释放从集群管理器分配的资源。

Spark 宏观架构&执行步骤的更多相关文章

Spark入门实战系列--4.Spark运行架构
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1. Spark运行架构 1.1 术语定义 lApplication:Spark Appli ...
Spark SQL概念学习系列之Spark SQL 架构分析（四）
Spark SQL 与传统 DBMS 的查询优化器 + 执行器的架构较为类似,只不过其执行器是在分布式环境中实现,并采用的 Spark 作为执行引擎. Spark SQL 的查询优化是Catalyst ...
【转载】Spark运行架构
1. Spark运行架构 1.1 术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个 ...
spark 运行架构
spark 运行架构基本由三部分组成,包括SparkContext(驱动程序),ClusterManager(集群资源管理器)和Executor(任务执行过程)组成. 其中SparkContext负责 ...
Spark运行架构详解
原文引自:http://www.cnblogs.com/shishanyuan/p/4721326.html 1. Spark运行架构 1.1 术语定义 lApplication:Spark Appl ...
Spark SQL底层执行流程详解
本文目录一.Apache Spark 二.Spark SQL发展历程三.Spark SQL底层执行原理四.Catalyst 的两大优化一.Apache Spark Apache Spark是用 ...
Spark Streaming 架构
图 1 Spark Streaming 架构图组件介绍: Network Input Tracker : 通过接收器接收流数据, 并将流数据映射为输入DSt ...
Spark运行架构
http://blog.csdn.net/pipisorry/article/details/52366288 1. Spark运行架构 1.1 术语定义 lApplication:Spark App ...
Spark基本架构
Spark基本架构图如下: Client:客户端进程,负责提交作业. Driver:一个Spark作业有一个spark context,一个Spark Context对应一个Driver进程,作业的 ...

随机推荐

没有活动事务链接服务器的 OLE DB 访问接口 "SQLNCLI" 无法启动分布式事务
在windows2003下执行分布式事务的时候出现如下情况. 一. 问题现象在执行分布式事务时,在sql server 2005下收到如下错误: 链接服务器"xxxxxxx"的 O ...
关于kali2.0 rolling无法连接数据的解决办法
在使用kali2.0时,经常遇到metasploit无法连接数据库的问题,经过在网上寻找资料,很多都是对kali2.0的,有些路径都是不同的了,所以未能解决, 最后在自己的摸索下,找到了如下方法: 其 ...
Spring + Jedis集成Redis（单例redis数据库）
这几天没事,就把之前学习的redis代码整理一遍,废话不多说,上步骤. 1.pom.xml引入资源: <dependency> <groupId>org.springframe ...
PHP中删除数组空值的方法
array_filter函数的功能是利用回调函数来对数组进行过滤,如果没有回调函数,那么默认就是删除数组中值为false的项目. 例如 $entry = array( 0 ...
windows下修复Linux引导 and linux下几个常用软件
在这里,我选择的是deepinLinux,不用说,高端大气上档次! Linux下引导修复在win7上安装好了Linux,一不小心Linux系统启动不了 (一不小心的过程,想使用root登录图像界面, ...
jsp 中登录验证注销的模版
用户名密码验证模版 <%@page import="com.jerehedu.bao.User"%> <%@ page language="ja ...
WPF,textBox默认是失去焦点绑定值才改变，怎么做到输入框值一改变就改变绑定值. Text="{Binding EvaluationContent,UpdateSourceTrigger=PropertyChanged}"
如果用户提出只要textBox1的文本改变slider1的滑块立刻响应,那就设置Binding的UpdateSourceTrigger属性.它是一个UpdateSourceTrigger类型枚举值,默 ...
js添加var和不加var区别
var 声明的变量,作用域是当前 function 没有声明的变量,直接赋值的话, 会自动创建变量但作用域是全局的. //----------------- function doSth() { a ...
WIN32/API/SDK/MFC四者之间的联系和区别
上面大家都说Win32是一个子系统,这个当然是对的,不过我们有时候我们所说Win32通俗的就是指32位的Windows系统,从 windows95/98到NT/2000/XP都是32位Windows. ...
maven模块
用maven无它,唯方便而. 模块依赖可以用来做一些公共模块,多个工程调用. 先子模块 install 或者package.在父模块install

Spark 宏观架构&执行步骤

转换用户程序到任务

调度task 到executor

Spark 宏观架构&执行步骤的更多相关文章

随机推荐

热门专题