随着对spark的业务更深入，对spark的了解也越多，然而目前还处于知道的越多，不知道的更多阶段，当然这也是成长最快的阶段。这篇文章用作总结最近收集及理解的spark相关概念及其关系。

名词

driver

　　driver物理层面是指输入提交spark命令的启动程序，逻辑层面是负责调度spark运行流程包括向master申请资源，拆解任务，代码层面就是sparkcontext。

worker

worker指可以运行的物理节点。

executor

　　executor指执行spark任务的处理程序，对java而言就是拥有一个jvm的进程。一个worker节点可以运行多个executor，只要有足够的资源。

job

job是指一次action，rdd（rdd在这里就不解释了）操作分成两大类型，一类是transform，一类是action，当涉及到action的时候，spark就会把上次action之后到本次action的所有rdd操作用一个job完成。

stage

stage是指一次shuffle，rdd在操作的时候分为宽依赖（shuffle dependency）和窄依赖（narraw dependency），如下图所示。而宽依赖就是指shuffle。

应某人要求再解释一下什么是窄依赖，就是父rdd的每个分区都只作用在一个子rdd的分区中，原话是这么说的 each partition of the parent RDD is used by at most one partition of the child RDD。

task

task是spark的最小执行单位，一般而言执行一个partition的操作就是一个task，关于partition的概念，这里稍微解释一下。

spark的默认分区数是2，并且最小分区也是2，改变分区数的方式有很多，大概有三个阶段

　1.启动阶段，通过 spark.default.parallelism 来初始化默认分区数

　2.生成rdd阶段，可通过参数配置

　3.rdd操作阶段，默认继承父rdd的partition数，最终结果受shuffle操作和非shuffle操作的影响，不同操作的结果partition数不同

名词关系

物理关系

官网给出的spark运行架构图

逻辑关系

　　下图是总结的逻辑关系图，如果有不对之处，还望提醒

参考资料

//spark apche的官网提供的参数配置清单

http://spark.apache.org/docs/latest/configuration.html

//spark apche的官网提供的spark运行总览

http://spark.apache.org/docs/latest/cluster-overview.html

//stackoverflow对于dataframe partition的解释

http://stackoverflow.com/questions/39368516/number-of-partitions-of-spark-dataframe

//关于spark最小分区数的解释

https://github.com/mesos/spark/pull/718

Spark（一）介绍的更多相关文章

spark API 介绍链接
spark API介绍: http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html#aggregateByKey
Spark角色介绍及spark-shell的基本使用
Spark角色介绍 1.Driver 它会运行客户端的main方法,构建了SparkContext对象,它是所有spark程序的入口 2.Application 它就是一个应用程序,包括了Driver ...
Spark概念介绍
Spark概念介绍:spark应用程序在集群中以一系列独立的线程运行,通过驱动器程序(Driver Program)发起一系列的并行操作.SparkContext对象作为中间的连接对象,通过Spark ...
Spark MLlib介绍
Spark MLlib介绍 Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因: (1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足 ...
2 Spark角色介绍及运行模式
第2章 Spark角色介绍及运行模式 2.1 集群角色从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点:Master节点主要运行集群管理器的中心化部分,所承 ...
Spark Transformations介绍
背景本文介绍是基于Spark 1.3源码如何创建RDD? RDD可以从普通数组创建出来,也可以从文件系统或者HDFS中的文件创建出来. 举例:从普通数组创建RDD,里面包含了1到9这9个数字,它们 ...
spark算子介绍
1.spark的算子分为转换算子和Action算子,Action算子将形成一个job,转换算子RDD转换成另一个RDD,或者将文件系统的数据转换成一个RDD 2.Spark的算子介绍地址:http:/ ...
Spark—RDD介绍
Spark-RDD 1.概念介绍 RDD(Resilient Distributed Dataset):弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算 ...
Spark简单介绍，Windows下安装Scala+Hadoop+Spark运行环境，集成到IDEA中
一.前言近几年大数据是异常的火爆,今天小编以java开发的身份来会会大数据,提高一下自己的层面! 大数据技术也是有很多: Hadoop Spark Flink 小编也只知道这些了,由于Hadoop, ...
Apache Spark简单介绍、安装及使用
Apache Spark简介 Apache Spark是一个高速的通用型计算引擎,用来实现分布式的大规模数据的处理任务. 分布式的处理方式可以使以前单台计算机面对大规模数据时处理不了的情况成为可能. ...

随机推荐

干货 | 蚂蚁金服是如何实现经典服务化架构往 Service Mesh 方向的演进的？
干货 | 蚂蚁金服是如何实现经典服务化架构往 Service Mesh 方向的演进的? https://www.sohu.com/a/235575064_99940985 干货 | 蚂蚁金服是如何实现 ...
linux 命令行执行 php
w为监控响应功能做准备. ubuntu@VM-52-248-ubuntu:~$ php -f /var/www/html/wlinux.phpwwubuntu@VM-52-248-ubuntu:~$ ...
webservice接口问题:Payload: No message body writer has been found for class domain, ContentType: application/xml
当在使用cxf-rs的webservice的时候,有时候在传输数据,会发生这种错误错误代码: Response-Code: 500 Content-Type: text/plain Headers: ...
sublime text 3 配置方法
一.安装sublime text 3 1>.执行sublime text 3的安装包(.exe)文件安装成功后,进入sublime的安装目录(例如:D:\Program Files\Sublim ...
mysql数据池设置
参考链接https://www.cnblogs.com/KKSoft/p/8040374.html python的数据库连接池包:DBUtils DBUtils提供两种外部接口: Persistent ...
mysql 正则表达式 regexp rlike not rlike
regexp rlike not rlike 今天在上班的时候突然遇到了一个问题,C+组的同事要删除mysql里面的一些特殊数据,想要正则进行匹配.于是问我,没想到还真的把我难住了,问题如下 ...
（0）linux下的Mysql安装与基本使用（编译安装）
一.大致操作步骤环境介绍: OS:center OS6.5 mysql:5.6版本 1.关闭防火墙查看防火墙状态:service iptables status 这样就意味着没有关闭. 运行以下命 ...
vue 动画过渡
一.过渡(动画) 1. 简介 Vue 在插入.更新或者移除 DOM 时,提供多种不同方式的应用过渡效果,本质上还是使用CSS3动画:transition.animation 2. 基本用法 1.使用t ...
06 swap命令，进程管理，rmp命令与yum命令，源码安装python
作业一: 1)开启Linux系统前添加一块大小为15G的SCSI硬盘 2)开启系统,右击桌面,打开终端 3)为新加的硬盘分区,一个主分区大小为5G,剩余空间给扩展分区,在扩展分区上划分1个逻辑分区,大 ...
Linux系统——本地定制化yum仓库部署
1)开启yum仓库配置文件 /etc/yum.conf的keepcache功能 (开启一个新的虚拟机) 将keepcache=0改为1,修改配置文件后重新清空缓存(1默认下载的安装包不删除,才可以实现 ...

Spark（一）介绍

名词