Spark集群术语解析

1. Application

Application是用户在Spark上构建(编写)的程序，包含driver program 和executors（分布在集群中多个节点上运行的Executor代码）。

2. SparkContext

Spark的上下文对象，是程序的起点，通往集群的入口（与cluster进行连接），通过其可以创建RDD（获取数据），在其中配置的参数拥有最高优先级。在Spark中由SparkContext负责和ClusterManager通行，进行资源的申请，任务的分配和监控等。

3. Driver program

包含应用程序的main函数，并且运行时会创建SparkContext。当Executor部分运行完后，Driver负责将SparkContext关闭。

4. Cluster Manager

集群资源管理的外部服务，在Spark上现有Standalone(Spark自带的管理器)，YARN(hadoop 2.x的管理器),Mesos等三种集群资源管理器，Standalone能满足绝大部分对集群资源管理的需求，基本上只有在集群中运行多套计算框架（例如同时运行MapReduce和Spark）的时候才建议使用YARN和Mesos。

5. Deploy mode

表明driver程序运行的位置。在”cluster”模式时，框架会在集群中启动driver。在”client”模式时，driver在集群外被提交者启动。

6. Worker Node

集群中运行应用Application代码的节点，在Standalone模式中指的是通过slaves文件配置的Worker节点，在Spark on Yarn模式中指的就是NodeManager节点。

7. Executor

一个Application运行在Worker节点上的一个进程，负责运行某些Task，并且负责将数据存放在内存或磁盘上。每个Application都有各自独立的一批Executor,一个Executor只能为一个Application服务，一个Worker上可能会有多个Executor，在Executor内部通过多线程的方式并发处理应用的任务(Task）。在Spark
on Yarn模式下，其进程名称为CoarseGrainedExecutorBackend。一个CoarseGrainedExecutorBackend进程有且仅有一个Executor对象，负责将Task包装成taskRunner，并从线程池中抽取一个空闲线程运行Task。每个CoarseGrainedExecutorBackend能并行运行Task的数量取决于分配给它的CPU个数。

8. Task

被Driver发送到executor的工作单元（最终在worker节点运行的任务），和MapReduce中的MapTask和ReduceTask概念一样，是运行Application的基本单位。多个Task组成一个Stage,而Task的调度及管理等由TaskScheduler负责，通常情况下一个task会处理一个split的数据，每个split一般就是一个Block块的大小。

9. Job

一道作业，即应用完成某项需求所需要的一系列工作（由一系列task组成的并行计算）。与Spark的action相对应，每个action操作(例如count,saveAsTextFile,collect等)都会对应一个job实例，可在driver的日志中看到相关信息。一个Application可能产生多个Job。

10. Stage

一个Job会分成很多组Task，每一组任务被分为Stage,类似于MapReduce的map和reduce,划分Stage的依据：一个Stage开始一般是由于读取外部数据或者Shuffle数据，一个Stage的结束一般是由于发生了Shuffle(例如reduceByKey)或者整个Job结束时把数据放到hdfs等存储系统上(例如saveAsTextFile)。

11. DAG

有向无环图，将job分解成若干个Stage，每个Stage都由若干个Task组成，这些Stage都是有先后顺序的，故将这些Stage组织成DAG,表示其先后顺序。

12. Taskset

每个Stage由若干个Task组成，这些task统一称为taskset。

12. RDD

Spark的基本计算单元，可以进行一系列算子进行操作（主要为Transformation和Action操作）。同时，RDD是Spark最核心的东西，它表示已被分区，被序列化，不可变的，有容错基质的，并且能被并行操作的数据集合。可以存在内存，也可以存在磁盘，可以通过persist()方法中的org.apache.spark.storage.StorageLevel属性进行配置。

13. 共享变量

在Application运行时，可能需要共享一些变量，供Task或Driver等使用。Spark提供了两种共享变量，一种是可以缓存到各个节点的广播变量（broadcast），一种是只支持加法操作，可以实现求和的累加变量（accumulators）。

14. 宽依赖

或称为ShuffleDependency,跟MapReduce中的Shuffle的数据依赖相同，宽依赖需要计算好所有父RDD对应分区的数据，然后在节点之间进行Shuffle。

15. 窄依赖

或称为NarrowDependency,指的是摸个具体的RDD，其分区partition A最多被子RDD中的一个分区partition B依赖。此种情况只有Map任务，是不需要发生Shuffle过程的。窄依赖又分为1:1和N:1两种。

16. DAGScheduler

根据job构建基于Stage的DAG，并提交Stage给TaskScheduler。其划分Stage的依据是根据RDD之间的依赖关系。

17. TaskScheduler

将Task提交给Worker（集群）运行，每个Executor运行什么Task就是在此处分配的。

Spark集群术语的更多相关文章

Spark集群模式概述
作者:foreyou出处:http://www.foreyou.net/2015/06/22/spark-cluster-mode-overview/声明:本文采用以下协议进行授权: 署名-非商用|C ...
Spark集群-Standalone 模式
Spark 集群相关 table td{ width: 15% } 来源于官方, 可以理解为是官方译文, 外加一点自己的理解. 版本是2.4.4 本篇文章涉及到: 集群概述 master, worke ...
（四）Spark集群搭建-Java&Python版Spark
Spark集群搭建视频教程 1.优酷 2.YouTube 安装scala环境下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到m ...
[bigdata] spark集群安装及测试
在spark安装之前,应该已经安装了hadoop原生版或者cdh,因为spark基本要基于hdfs来进行计算. 1. 下载 spark: http://mirrors.cnnic.cn/apache ...
Spark集群部署
Spark是通用的基于内存计算的大数据框架,可以和hadoop生态系统很好的兼容,以下来部署Spark集群集群环境:3节点 Master:bigdata1 Slaves:bigdata2,bigda ...
Spark集群 + Akka + Kafka + Scala 开发(3) : 开发一个Akka + Spark的应用
前言在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中,我们已经部署好了一个Spark的开发环境. 在Spark集群 + Akka + Kafka + S ...
Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用
前言在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境,我们已经部署好了一个Spark的开发环境. 本文的目标是写一个Spark应用,并可以在集群中测试. ...
Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境
目标配置一个spark standalone集群 + akka + kafka + scala的开发环境. 创建一个基于spark的scala工程,并在spark standalone的集群环境中运 ...
Hadoop+Spark:集群环境搭建
环境准备: 在虚拟机下,大家三台Linux ubuntu 14.04 server x64 系统(下载地址:http://releases.ubuntu.com/14.04.2/ubuntu-14.0 ...

随机推荐

HDU2108和HDU2036（叉乘）
hdu2108 判断是否为凸边形判断连续三点的叉乘若为凸,内角<180:若为凹,内角>180 所以通过正负来判断 #include <iostream> #include ...
51Nod 1331 狭窄的通道
有一个长为L的狭窄通道,我们假设这个通道在x轴上,其两个出口分别在x=0与x=L处.在这个通道里有N只狼,第i只狼有一个初始位置ai,它想到达位置bi(0<=i=L处空间足够大可以装下任意数量的 ...
VS2012中C++，#include无法打开自己所写的头文件（.h）
最近刚开始学cocos2d-x,创建项目之后,自己按照<cocos2d-x 3.x 游戏开发>的教程写代码先写了一个头文件 MyHelloWorldScene.h 然后在 AppDe ...
java集合之ArrayList源码解读
源自:jdk1.8.0_121 ArrayList继承自AbstractList,实现了List.RandomAccess.Cloneable.Serializable. ArrayList内部是通过 ...
Linux系统之TroubleShooting（故障排除）（转）
尽管Linux系统非常强大,稳定,但是我们在使用过程当中,如果人为操作不当,仍然会影响系统,甚至可能使得系统无法开机,无法运行服务等等各种问题.那么这篇博文就总结一下一些常见的故障排除方法,但是不可能 ...
性能优化之mysql优化——慢查日志的开启方式和存储
-- MySQL优化 -- mysql 慢查日志的开启方式和存储 -- 1) 查看mysql是否开启慢查询日志 SHOW VARIABLES LIKE 'slow_query_log'; -- 2) ...
特殊权限 SUID、SGID、Sticky
摘录之----------QuintinX 一. 前提本篇主要讲解SUID, SGID, Sticky三个权限的基本原理和应用. 为什么要使用特殊权限? 比如系统中假如有超过四类人然而每一类人都需要 ...
Parallel.For 平行算法使用
之前看到Parallel的用法,觉得很高深,很腻害,今天专门抽空研究了一下,发现还是很easy的. .NET Framework 4.0 新加的功能,所以4.0之前的无法使用哦. 下面介绍一下,Par ...
Java 程序运行过程中的内存分析
作为 java 程序员,都应该知道 Java 程序运行在 JVM(Java Virtual Machine,Java 虚拟机)上,可以把 JVM 理解成 Java 程序和操作系统之间的桥梁,JVM 实 ...
JAVA反射之Class类的练习
package zhang; /** * JAVA反射之CLass类的练习 * * 在面向对象的语言里,万事万物皆对象,那么类是谁的对象呢? * 类的类型是CLass * * */ class Tes ...

Spark集群术语