Spark核心概念

1、Application

基于spark的用户程序，包含了一个Driver Program以及集群上中多个executor；

spark中只要有一个sparkcontext就是一个application；

启动一个spark-shell也是一个application，因为在启动shark-shell时就内置了一个sc(SparkContext的实例)；

2、Driver Program

运行Application的main()函数并且创建SparkContext的程序。通常用SparkContext代表Driver Program；

3、Cluster Manager

在集群上获取资源的外部服务。如：standalone、yarn、mesos；

　各种不同的集群的区别：只是任务调度的粗细粒度不同，对学习spark没有影响，自己在学习时使用standalone即可；

4、Worker Node

集群中任何一个可以运行Application代码的节点；

可以在Worker Node启动Executor进程；

5、Executor

在Worker Node上为某Application启动一个进程，该进程负责运行任务，并且负责将数据存在硬盘或者内存中；每个Application都有各自独立的executors；

比如：应用A在一个Node上启动Executor，B应用也在同一个Node上启动Executor，他们各自的Executor是相互隔离的，运行在不同的JVM上。不同的应用对应不同的Executor；

6、Job

包含很多task的并行计算，spark中的一个action对应一个job，如：collect、count、saveAsTextFile；

用户提交的Job会提交给DAGScheduler，Job会被分解成Stage(TaskSet) DAG；

RDD的transformation只会记录对元数据的操作(map/filter)，而并不会真正执行，只有action触发时才会执行job；

7、Stage

每个Job会被拆分成多组任务，每组任务被称为一个Stage,可称为TaskSet；

一个stage的边界往往是从某个地方取数据开始(如：sc.readTextFile)，在shuffle时(如：join、reduceByKey等)终止；

一个job的结束(如：count、saveAsTextFile等)往往也是一个stage的边界；

有两种类型的Stage：shuffle和result；

8、Task

被送到executor上的工作单元；

spark分为2类task：

在Spark中有两类Task：shuffleMapTask和ResultTask，第一类Task的输出是shuffle所需数据，第二类task的输出是result；

　 stage的划分也以此为依据，shuffle之前的所有变换是一个stage，shuffle之后的操作是另一个stage；

比如：rdd.parallize(1 to 10).foreach(println)这个操作没有shuffle，直接就输出了，那么它的task就是resulttask，stage也只有一个；

如果rdd.map((x,1)).reduceByKey(_+_).foreach(println)，这个job因为有reduce，所以有个一shuffle过程，那么reduceByKey之前是一个stage，执行shuffleMapTask，输出shuffle所需要的数据，reduceByKey到最后是一个stage，直接就输出结果了。

如果一个job中有多次shuffle，那么每个shuffle之前都是一个stage；

9、Partition

partition类似hadoop的split，计算是以partition为单位进行的

详细信息参见官方文档：http://spark.apache.org/docs/latest/cluster-overview.html

Spark核心概念的更多相关文章

Spark核心概念理解
本文主要内容来自于<Hadoop权威指南>英文版中的Spark章节,能够说是个人的翻译版本号,涵盖了基本的Spark概念.假设想获得更好地阅读体验,能够訪问这里. 安装Spark 首先从s ...
深入理解Spark(一)：Spark核心概念RDD
RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持 ...
Spark核心概念之RDD
RDD: Resilient Distributed Dataset RDD的特点: 1.A list of partitions 一系列的分片:比如说64M一片:类似于Hadoop中的s ...
Spark 核心概念 RDD 详解
RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持 ...
Spark 核心概念RDD
文章正文 RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此, ...
Spark系列-核心概念
Spark系列-初体验(数据准备篇) Spark系列-核心概念一. Spark核心概念 Master,也就是架构图中的Cluster Manager.Spark的Master和Workder节点分别 ...
大话Spark(1)-Spark概述与核心概念
说到Spark就不得不提MapReduce/Hadoop, 当前越来越多的公司已经把大数据计算引擎从MapReduce升级到了Spark. 至于原因当然是MapReduce的一些局限性了, 我们一起先 ...
【Spark深入学习-11】Spark基本概念和运行模式
----本节内容------- 1.大数据基础 1.1大数据平台基本框架 1.2学习大数据的基础 1.3学习Spark的Hadoop基础 2.Hadoop生态基本介绍 2.1Hadoop生态组件介绍 ...
Spark Streaming核心概念与编程
Spark Streaming核心概念与编程 1. 核心概念 StreamingContext Create StreamingContext import org.apache.spark._ im ...

随机推荐

linux Shell的使用
linux Shell的使用下面是我对shell脚本使用的学习,写成日志,做个笔记,可以当做自己以后的复习. 1.输出hello world! vi test1.sh, 如果不会vi工具的使用,请参 ...
Hibernate入门学习（一）
一.Hibernate是什么 Hibernate主要用来实现Java对象和数据表之间的映射,除此之外还提供数据查询和获取数据的方法,可以大幅度减少开发时人工使用SQL和JDBC处理数据的时间.Hibe ...
[Hibernate] - many to one
Hibernate的多对一操作: 例子参考引用: http://www.tutorialspoint.com/hibernate/hibernate_many_to_one_mapping.htm h ...
01TCP/IP基础
ISO/OSI参考模型: OSI(open system interconnection)开放系统互联模型是由ISO(International Organization for Standardiz ...
调用Newtonsoft.Json 报FileNotFoundException 错误
具体如下: Exception StackTrace at Newtonsoft.Json.Converters.BinaryConverter.CanConvert(Type objectType) ...
ICSharpCode.SharpZipLib.dll，MyZip.dll,Ionic.Zip.dll 使用
MyZip.dll : 有BUG,会把子目录的文件解压到根目录.. ICSharpCode.SharpZipLib.dll: 把ICSharpCode.SharpZipLib.dll复制一份,重命名为 ...
RESRful API 和 HTTP状态码
一.RESRful API: GET(SELECT):从服务器取出资源(一项或多项). POST(CREATE):在服务器新建一个资源. PUT(UPDATE):在服务器更新资源(客户端提供改变后的完 ...
[zsh]zsh常用小技巧
文章来源http://yijiebuyi.com/blog/3154040ae0aa3d352c61a10f2664591e.html shell基础: 查看当前使用shell类型: ->ech ...
进程间的通讯(IPC)方式
内存映射为什么要进行进程间的通讯(IPC (Inter-process communication)) 数据传输:一个进程需要将它的数据发送给另一个进程,发送的数据量在一个字节到几M字节之间共享数据 ...
精妙SQL语句收集(转)
SQL语句先前写的时候,很容易把一些特殊的用法忘记,我特此整理了一下SQL语句操作. 一.基础 1.说明:创建数据库 CREATE DATABASE database-name 2.说明:删除数据库 ...

Spark核心概念

Spark核心概念的更多相关文章

随机推荐

热门专题