Spark（六） -- Spark计算模型

整个Spark框架都是基于RDD算子来进行计算的。

What is RDD？

Resilient Distributed Dataset(RDD)，分布式弹性数据集，是Spark上的一个核心抽象

表示用于并行计算的，不可修改的，对数据集合进行分片的数据结构

简单地，可以将RDD看成是Spark平台上的通用货币

在Spark上，针对各种各样的计算场景存在着各种各种的RDD，这些RDD拥有一些共同的操作，例如map，filter，persist等，就好像RDDs都是一个总RDD的子类一样，拥有所有RDD的共同特性

同时RDDs也拥有能表达自己特性的操作，例如PairRDDR有groupByKey，join等操作，而DoubleRDD有Doubles操作

所有的RDD都有以下特性：

可以表示数据分片的列表集合。将原始数据经过某些分片处理生成RDDs，这些RDD将用于并行计算

通用的算子来计算每个数据分片

包括transformation和action两大算子类别。

RDD之间拥有依赖关系

transformation只对数据进行处理而不计算，处理过程会被画成一个DAG有向无循环图，只有当action操作要获取结果时，才根据DAG图来进行并行计算。

DAG图会根据RDD之间的依赖关系被分解成一个个stage之后提交

形成DAG图的过程中也会根据RDD之间的依赖关系形成Lineage

这是Spark上一个重要的容错机制

当某个节点计算错误时，只需要根据Lineage重新计算相关的操作而不必回滚整个程序

以下两张图是来源自网络的

Spark中部分RDD类的截图

transformation和action操作的Function截图

除了transformation和action两大类算子之外，RDD还有一个比较特殊的算子

如persist和checkpoint，它们既不属于transformation也不属于action

但是都会触发Job的运行

persist将RDD结果持久化，修改了RDD中meta info的存储级别

checkpoint在持久化RDD的同时还切断了RDD之间的依赖血缘关系。除了修改了存储级别，还修改了meta info中RDD的lineage依赖关系

两者返回的均是修改后的RDD而不是产生的RDD（transformation是产生新的RDD，action是对RDD取结果）

RDD之间的依赖关系可以分为Narrow，Wide：窄依赖和宽依赖两种

窄依赖：子RDD中的每个数据块只依赖于父RDD中对应的有限个固定的数据块，可以理解成父子RDD是一对一或者多对一的关系，例如：map变换，前后的数据都是一行对一行的。一个子RDD可以根据其父RDD直接计算得出，因而子RDD出现计算错误的时候，只需要重新计算对应的父RDD即可

宽依赖：子RDD中的一个数据块可以依赖于父RDD中的所有数据块。即一对多的情况，例如：groupByKey变换，子RDD中的数据块会依赖于多个父RDD中的数据块，因为一个key可能存在于父RDD的任何一个数据块中。宽依赖中的子RDD要等到所有的父RDD计算完成之后才能进行计算，当数据丢失时需要对所有祖先RDD进行重新计算

依赖关系图：

其中，宽依赖是会触发shuffle行为的

而shuffle操作可以减小集群之间网络传输的压力，对数据进行一定的提前处理工作，对于提高整个集群的处理性能是十分重要的

在Spark中shuffle操作会是将DAG图划分成一个个stage的起点

如图所示：

map和union是属于transformation操作的。这里会涉及到一个pipeline的概念，对数据切片之后并行协同计算，从图中我们可以看到，map和union的时候Task之间的处理是并行的，而协同体现在当某个Task计算缓慢的时候，集群会启动一个新的节点来计算该Task，哪个节点先处理完毕就采用哪个节点的结果

groupBy和join操作是产生RDD之间的宽依赖的，这是一个shuffle过程，也是触发划分stages的起点，如上图中的三个stage

从物理的角度看RDD其实是一个元数据结构，存储着Block和Node之间的映射关系

关于Spark的transformation，action和划分stage等过程都是怎么处理的，整个作业的处理流程是什么，请看：

Spark（四） – Spark内核作业调度机制

Spark（六） -- Spark计算模型的更多相关文章

二十三、Hadoop学记笔记————Spark简介与计算模型
spark优势在于基于内存计算,速度很快,计算的中间结果也缓存在内存,同时spark也支持streaming流运算和sql运算 Mesos是资源管理框架,作为资源管理和任务调度,类似Hadoop中的Y ...
Spark与Hadoop计算模型的比较分析
http://tech.it168.com/a2012/0401/1333/000001333287.shtml 最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都 ...
Spark练习之通过Spark Streaming实时计算wordcount程序
Spark练习之通过Spark Streaming实时计算wordcount程序 Java版本 Scala版本 pom.xml Java版本 import org.apache.spark.Spark ...
Spark记录-spark与storm比对与选型（转载）
大数据实时处理平台市场上产品众多,本文着重讨论spark与storm的比对,最后结合适用场景进行选型. 一.spark与storm的比较比较点 Storm Spark Streaming 实时计算模 ...
Spark计算模型
[TOC] Spark计算模型 Spark程序模型一个经典的示例模型 SparkContext中的textFile函数从HDFS读取日志文件,输出变量file var file = sc.textF ...
【CDN+】 Spark入门---Handoop 中的MapReduce计算模型
前言项目中运用了Spark进行Kafka集群下面的数据消费,本文作为一个Spark入门文章/笔记,介绍下Spark基本概念以及MapReduce模型 Spark的基本概念: 官网: http://s ...
重要 | Spark和MapReduce的对比，不仅仅是计算模型？
[前言:笔者将分上下篇文章进行阐述Spark和MapReduce的对比,首篇侧重于"宏观"上的对比,更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spar ...
Spark Streaming实时计算框架介绍
随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐.用户行为分析等. Spark Streaming是建立在 ...
Spark的误解-不仅spark是内存计算，hadoop也是内存计算
市面上有一些初学者的误解,他们拿spark和hadoop比较时就会说,Spark是内存计算,内存计算是spark的特性.请问在计算机领域,mysql,redis,ssh框架等等他们不是内存计算吗?依据 ...
Spark：Spark 编程模型及快速入门
http://blog.csdn.net/pipisorry/article/details/52366356 Spark编程模型 SparkContext类和SparkConf类代码中初始化我们 ...

随机推荐

kuangbin带你飞生成树专题：次小生成树; 最小树形图;生成树计数
第一个部分前4题次小生成树算法:首先如果生成了最小生成树,那么这些树上的所有的边都进行标记.标记为树边. 接下来进行枚举,枚举任意一条不在MST上的边,如果加入这条边,那么肯定会在这棵树上形成一 ...
[ Openstack ] Openstack-Mitaka 高可用之 Rabbitmq-server 集群部署
目录 Openstack-Mitaka 高可用之概述 Openstack-Mitaka 高可用之环境初始化 Openstack-Mitaka 高可用之 Mariadb-Galera集群 ...
轻量级批量管理工具pssh
pssh工具 pssh工具是个轻量级的批量管理工具,相比同类型的开源工具 Ansible,Saltstack,他比较轻量级,需要对管理的主机做秘钥认证 Ansible是可以做秘钥认证,也可以通过配置文 ...
AC日记——[JSOI2008]火星人prefix bzoj 1014
1014 思路: 平衡树+二分答案+hash: 好了懂了吧. 代码: #include <cstdio> #include <cstring> #include <ios ...
【转载】Synflood code
''' Syn flood program in python by Tequila/e credits to Silver Moon for base's of syn packets. r s s ...
（2）三剑客之grep
1)grep和egrep定义grep:在文件中全局查找指定的正则表达式,并打印所有包含该表达式的行egrep:扩展的egrep,支持更多的正则表达式元字符2)命令格式语法:grep [选项] patt ...
windows8 使用docker创建第一个nodejs运行环境
现在公司电脑使用的是windows8操作系统,如果想要运行docker,只能安装Docker ToolBox 关于安装Docker ToolBox,请查看文章<windows8安装docker( ...
8、Django实战第8天：session和cookie自动登录机制
因为http是无状态协议,因此,并不会记录用户的登录状态.在早期,是直接把用户名和密码等信息存储在浏览器的cookie来实现记录用户密码登录. 但是这样存在安全隐患,只要别人登录你的电脑cookie信 ...
数字 function
SELECT TRUNC(15.79), TRUNC(), ROUND(15.79), ), ), FLOOR(26.983), CEIL(26.123), ), ), ), MOD(,) FROM ...
csdn下载频道循环登录的解决方法
一直循环登录,明明登录成功,跳转页面后还是无法下载,还是要登录,一直循环. 解决方法是修改密码.看来asp果然是垃圾啊.

Spark（六） -- Spark计算模型

Spark（六） -- Spark计算模型的更多相关文章

随机推荐

热门专题