Spark RDD理解

RDD简介

RDD是弹性分布式数据集（Resilient Distributed Dataset）,能在并行计算阶段进行高效的数据共享；RDD还提供了一种粗粒度接口，该接口会将相同的操作应用到多个数据集上并记录创建数据集的‘血统’，从而在不需要存储真正的数据的情况下，达到高效的容错性。

返回顶部

RDD操作类别

RDD操作大致可分为四类：创建操作、转换操作、控制操作、行动操作；在这些大类的基础上还能划为些细类，下面是大部分的RDD操作，以及其细类划分情况。　　

返回顶部

RDD分区

分区的多少决定RDD的并行粒度；分区是逻辑概念，分区前后可能存储在同一内存；RDD分区之间存在依赖关系，分为宽依赖和窄依赖

宽依赖：多个子RDD分区依赖一个父RDD分区；如join，groupBy操作；

窄依赖：窄依赖：每个父RDD的分区都至多被被一个子RDD的分区使用；如map操作一对一关系

返回顶部

宽依赖和窄依赖作用

窄依赖允许在单个集群节点上流水线式执行，这个节点可以计算所有父级分区；而且，在窄依赖中，节点失败后的恢复更加高效

宽依赖的继承关系中，单个失败节点可能导致一个RDD的所有祖先RDD中的一些分区丢失，导致计算重新执行

返回顶部

RDD分区划分器

spark中RDD计算是以分区为单位的，而计算函数都是在迭代器中复合；分区计算一般使用mapPartitions等计算。

spark提供了两种默认的分区划分器，一种是HashPartitioner(哈希分区划分器)，另一种是RangePartitioner(范围分区划分器)

返回顶部

RDD到调度

RDD转换操作属于lazy级别，会延迟执行，作业的提交是由行动操作触发。当执行RDD行动操作时触发作业的提交，然后会根据RDD之间的关系构建DAG（有向无环图），再提交给DAGScheduler进行解析；解析之后会得到调度阶段Stage，也就是taskSet;最后TashScheduler进一步解析得到task，task将会在Worker中Executor里面执行。

Spark RDD理解的更多相关文章

Spark RDD理解-总结
1.spark是什么快速.通用.可扩展的分布式计算引擎. 2. 弹性分布式数据集RDD RDD(Resilient Distributed Dataset),是Spark中最基本的数据抽象结构,表示 ...
[bigdata] Spark RDD整理
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存 ...
Spark RDD aggregateByKey
aggregateByKey 这个RDD有点繁琐,整理一下使用示例,供参考直接上代码 import org.apache.spark.rdd.RDD import org.apache.spark. ...
Spark RDD概念学习系列之RDD的转换（十）
RDD的转换 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG.接下来以“Word Count”为例,详细描述这个DAG生成的 ...
Spark RDD概念学习系列之RDD的checkpoint（九）
RDD的检查点首先,要清楚.为什么spark要引入检查点机制?引入RDD的检查点? 答:如果缓存丢失了,则需要重新计算.如果计算特别复杂或者计算耗时特别多,那么缓存丢失对于整个Job的影响是不容 ...
Spark RDD概念学习系列之RDD的依赖关系（宽依赖和窄依赖）（三）
RDD的依赖关系? RDD和它依赖的parent RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency). 1)窄依赖指的是每 ...
Spark RDD整理
参考资料: Spark和RDD模型研究:http://itindex.net/detail/51871-spark-rdd-模型理解Spark的核心RDD:http://www.infoq.com/ ...
Spark RDD概念学习系列之rdd持久化、广播、累加器（十八）
1.rdd持久化 2.广播 3.累加器 1.rdd持久化通过spark-shell,可以快速的验证我们的想法和操作! 启动hdfs集群 spark@SparkSingleNode:/usr/loca ...
Spark RDD概念学习系列之rdd的依赖关系彻底解密（十九）
本期内容: 1.RDD依赖关系的本质内幕 2.依赖关系下的数据流视图 3.经典的RDD依赖关系解析 4.RDD依赖关系源码内幕 1.RDD依赖关系的本质内幕由于RDD是粗粒度的操作数据集,每个Tra ...

随机推荐

Django Ajax的使用
简介: AJAX = Asynchronous JavaScript and XML(异步的 JavaScript 和 XML). AJAX 不是新的编程语言,而是一种使用现有标准的新方法. AJAX ...
leetcode Ch8-Others
1. Rotate Image 旋转图像顺时针旋转90度:先沿水平线翻转,再沿主对角线翻转. 逆时针旋转90度:先沿竖直线翻转,再沿主对角线翻转. 顺时针旋转180度:水平翻转和竖直翻转各一次. 逆 ...
类型“Microsoft.Office.Interop.Word.ApplicationClass”错误 4317 无法嵌入互操作类型
类型“Microsoft.Office.Interop.Word.ApplicationClass”错误 4317 无法嵌入互操作类型“Microsoft.Office.Interop.Word.Ap ...
SQL server 和 Oracle 中列转行的小操作
Oracle: create table zjhis.mz_zdxx_zl as select a.sfsb, wm_concat(a.zdmc) as 诊断 from zjhis.mz_zdxx a ...
[翻译] GSProgressView
GSProgressView 本人极不推荐使用drawRect的方式来绘制下载进度条,无论机器的性能怎么高,使用drawRect用于绘制图形都是低效的. A cute little circular ...
火狐浏览器对svg支持的一点不足
项目中要用svg实现一个如下图所示的风机扇叶转动效果当用chrome浏览器打开,动画显示正常.用火狐浏览器打开扇叶静止不动,代码如下: <svg xmlns:cge="http:// ...
以太网的 MAC 层
一.MAC 层的硬件地址在局域网中,主机的硬件地址又称为物理地址,或 MAC 地址.6个字节. IEEE 的注册管理机构 RA 负责向厂家分配地址字段的前三个字节(即高位 24 位,组织唯一标识符O ...
提升PHP速度
PHP的优点之一是速度很快,对于一般的网站应用,可以说是已经足够了.不过如果站点的访问量很高.带宽窄或者其它的因素令服务器产生性能瓶颈的时候,你可能得想想其它的办法来进一步提高PHP的速度了.这篇文章 ...
iOS测试基础（命令篇)-iPhone型号及其他信息
首先安装libimobiledevice和ideviceinstaller brew uninstall ideviceinstaller brew uninstall libimobiledevic ...
Foj 2299 Prefix（AC自动机、DP）
Foj 2299 Prefix 题意给定串s.正整数n,问有多少长度为n的字符串t满足:s[0...i]是t的子串,s[0...i+1]不是. 题解求有多少长度为n的字符串t满足:s[0...i] ...

Spark RDD理解

RDD简介

RDD操作类别

RDD分区

宽依赖和窄依赖作用

RDD分区划分器

RDD到调度

Spark RDD理解的更多相关文章

随机推荐

热门专题