Spark RDD概念学习系列之RDD与DSM的异同分析（十三）

　　RDD是一种分布式的内存抽象，下表列出了RDD与分布式共享内存（Distributed Shared Memory，DSM）的对比。在DSM系统[1]中，应用可以向全局地址空间的任意位置进行读写操作。 DSM是一种通用的内存数据抽象，但这种通用性同时也使其在商用集群上实现有效的容错性和一致性更加困难。
　　RDD与DSM主要区别在于[2]，不仅可以通过批量转换创建（即“写”）RDD，还可以对任意内存位置读写。 RDD限制应用执行批量写操作，这样有利于实现有效的容错。特别是，由于RDD可以使用Lineage（血统）来恢复分区，基本没有检查点开销。失效时只需要重新计算丢失的那些RDD分区，就可以在不同节点上并行执行，而不需要回滚（Roll Back）整个程序。
　　

　　　　　　　　　　　　　　　　　　表　　RDD与DSM的对比

　　通过备份任务的复制，RDD还可以处理落后任务（即运行很慢的节点），这点与MapReduce类似，DSM则难以实现备份任务，因为任务及其副本均需读写同一个内存位置的
数据。
　　与DSM相比，RDD模型有两个优势。第一，对于RDD中的批量操作，运行时将根据数据存放的位置来调度任务，从而提高性能。第二，对于扫描类型操作，如果内存不足以缓存整个RDD，就进行部分缓存，将内存容纳不下的分区存储到磁盘上。
　　另外，RDD支持粗粒度和细粒度的读操作。 RDD上的很多函数操作（如count和collect等）都是批量读操作，即扫描整个数据集，可以将任务分配到距离数据最近的节点上。同时，RDD也支持细粒度操作，即在哈希或范围分区的RDD上执行关键字查找。
　　1）Transformations（变换）和Action（行动）算子维度。
　　2）在Transformations算子中再将数据类型维度细分为：Value数据类型和Key-Value对数据类型的Transformations算子。 Value型数据的算子封装在RDD类中可以直接使用，KeyValue对数据类型的算子封装于PairRDDFunctions类中，用户需要引入importorg.apache.spark.SparkContext._才能够使用。进行这样的细分是由于不同的数据类型处理思想不太一样，同时有些算子是不同的。
　　

Spark RDD概念学习系列之RDD与DSM的异同分析（十三）的更多相关文章

Spark RDD概念学习系列之RDD的转换（十）
RDD的转换 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG.接下来以“Word Count”为例,详细描述这个DAG生成的 ...
Spark RDD概念学习系列之RDD的checkpoint（九）
RDD的检查点首先,要清楚.为什么spark要引入检查点机制?引入RDD的检查点? 答:如果缓存丢失了,则需要重新计算.如果计算特别复杂或者计算耗时特别多,那么缓存丢失对于整个Job的影响是不容 ...
Spark RDD概念学习系列之RDD的缓存（八）
RDD的缓存 RDD的缓存和RDD的checkpoint的区别缓存是在计算结束后,直接将计算结果通过用户定义的存储级别(存储级别定义了缓存存储的介质,现在支持内存.本地文件系统和Tachyon) ...
Spark RDD概念学习系列之RDD的操作（七）
RDD的操作 RDD支持两种操作:转换和动作. 1)转换,即从现有的数据集创建一个新的数据集. 2)动作,即在数据集上进行计算后,返回一个值给Driver程序. 例如,map就是一种转换,它将数据集每 ...
Spark RDD概念学习系列之RDD是什么？（四）
RDD是什么? 通俗地理解,RDD可以被抽象地理解为一个大的数组(Array),但是这个数组是分布在集群上的.详细见 Spark的数据存储 Spark的核心数据模型是RDD,但RDD是个抽象类 ...
Spark RDD概念学习系列之RDD的依赖关系（宽依赖和窄依赖）（三）
RDD的依赖关系? RDD和它依赖的parent RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency). 1)窄依赖指的是每 ...
Spark RDD概念学习系列之RDD的缺点（二）
RDD的缺点? RDD是Spark最基本也是最根本的数据抽象,它具备像MapReduce等数据流模型的容错性,并且允许开发人员在大型集群上执行基于内存的计算. 为了有效地实现容错,(详细见ht ...
Spark RDD概念学习系列之rdd的依赖关系彻底解密（十九）
本期内容: 1.RDD依赖关系的本质内幕 2.依赖关系下的数据流视图 3.经典的RDD依赖关系解析 4.RDD依赖关系源码内幕 1.RDD依赖关系的本质内幕由于RDD是粗粒度的操作数据集,每个Tra ...
Spark RDD概念学习系列之RDD的创建（六）
RDD的创建两种方式来创建RDD: 1)由一个已经存在的Scala集合创建 2)由外部存储系统的数据集创建,包括本地文件系统,还有所有Hadoop支持的数据集,比如HDFS.Cassandra.H ...

随机推荐

MySQL 5.7 SYS scheme解析
sys 库是MySQL 5.7其中的一个系统库,里面有很多很好用的跟性能相关的视图.函数和存储过程, 增强MySQL的易用性例如:哪些语句使用了临时表,哪个用户请求了最多的io,哪个线程占用了最多的 ...
linux内核下载
01最新版:https://www.kernel.org/ 02老旧版:https://www.kernel.org/pub/linux/kernel/v3.x/ ------------------ ...
BZOJ 3140 消毒(最小顶点覆盖)
题目链接:http://61.187.179.132/JudgeOnline/problem.php?id=3140 题意:最近在生物实验室工作的小T遇到了大麻烦. 由于实验室最近升级的缘故,他的分格 ...
git branch
使用git管理工具,branch 应该是我们接触最多的.不论我们是修复bug,还是做项目,都会新开branch,工作完成后再合并. 然而对一些初学者,对git的一些命令知之甚少,这里,给大家写一些常用 ...
Codeforces Round #206 (Div. 1)B(记忆化）
这题刚开始理解错题意了以为只能往右和下走这题挺好的看题解看了N久啊二维的DP 第一维表示走到第几步可以画一个正方形以左上角斜着划线第i步走的点只能是第i条线上的点而dp的第二维就表示 ...
4197: [Noi2015]寿司晚宴
状压dp. 500分解质因数的话,除了最大的质因数只需要8个质数,用二进制x储存,最大的质因数用y来储存(若没有比那8个质数大的质因数就使y=1) 用f[i][j]表示第一个人方案为i,第二个人方案为 ...
原创-兼容IE8的placeholder
!function (o) { o.fn.extend({ PlaceHolder: function () { var _isEmpty = function (val) { return (val ...
C#基本知识点-Readonly和Const的区别
什么是静态常量(Const)和动态常量(Readonly) 先解释下什么是静态常量(Const)以及什么是动态常量(Readonly). 静态常量(Const)是指编译器在编译时候会对常量进行解析 ...
HDU 4609 3-idiots (FFT-快速傅立叶变换)
[题意]给定N个树枝,求从中取出三个可以围成三角形的概率 [思路] 2013多校训练第一场比赛1010题. 一开始就想到了O(n^2)枚举前两个树枝和的算法,赛后群里大牛说计算所有两个树枝和的情况可以 ...
推荐 15 个 Angular.js 应用扩展指令(参考应用)
几天前我们看到Angular 1.4.0发布了-一个以社团为驱动的发布版本涵盖了400多个GitHub的提交,增加了对特性的提升,比如动画,以及可用性. 官方新闻发布稿覆盖了绝大部分,这同样值得放于 ...

Spark RDD概念学习系列之RDD与DSM的异同分析（十三）

Spark RDD概念学习系列之RDD与DSM的异同分析（十三）的更多相关文章

随机推荐

热门专题