Spark RDD详解

1.RDD是什么

RDD（Resilient Distributed Dataset）：是Spark的核心数据结构，指的是一个只读的、可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。
 RDD 是只读的
 RDD 是分区记录的集合
 RDD 是容错的
 RDD 是高效的
 RDD 不需要物化
 RDD 可以缓存的

2.RDD的产生

1.传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法。
2. RDD的具体描述RDD（弹性数据集）是Spark提供的最重要的抽象的概念，它是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编操作集合的方式，进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合，它提供了一种只读、只能有已存在的RDD变换而来的共享内存，然后将所有数据都加载到内存中，方便进行多次重用。①它是分布式的，可以分布在多台机器上，进行计算。②它是弹性的，计算过程中内存不够时它会和磁盘进行数据交换。③这些限制可以极大的降低自动容错开销。④实质是一种更为通用的迭代并行计算框架，用户可以显示的控制计算的中间结果，然后将其自由运用于之后的计算。
3. RDD的容错机制实现分布式数据集容错方法有两种：数据检查点和记录更新RDD采用记录更新的方式：记录所有更新点的成本很高。所以，RDD只支持粗颗粒变换，即只记录单个块上执行的单个操作，然后创建某个RDD的变换序列（血统）存储下来；变换序列指，每个RDD都包含了他是如何由其他RDD变换过来的以及如何重建某一块数据的信息。因此RDD的容错机制又称“血统”容错。要实现这种“血统”容错机制，最大的难题就是如何表达父RDD和子RDD之间的依赖关系。

3.RDD在Spark中的地位及作用

Spark解决迭代计算的主要实现思想就是RDD，把所有计算的数据保存在分布式的内存中。迭代计算通常情况下都是对同一个数据集做反复的迭代计算，数据在内存中将大大提升IO操作。这也是Spark涉及的核心：内存计算。Spark和RDD的关系可以理解为：RDD是一种具有容错性基于内存的集群计算抽象方法，Spark则是这个抽象方法的实现。

4.RDD的创建方式

 从普通Scala集合创建，如：val arrRDD = sc. parallelize(0 to 9)
 从Hadoop文件系统或与Hadoop兼容的其他持久化存储系统创建，如Hive、HBase。如：val textFile = sc.textFile("hdfs://...")
 从父RDD转换得到新的RDD

5.父RDD与子RDD的依赖关系

窄依赖（narrow dependencies）
 子RDD的每个分区依赖于常数个父RDD分区（即与数据规模无关）
 输入输出一对一的算子，且结果RDD的分区结构不变，如map、flatMap
 输入输出一对一，但结果RDD的分区结构发生变化，如union、coalesce
 从输入中选择部分元素的算子，如filter、distinct、subtract、sample
宽依赖（wide dependencies）
 子RDD的每个分区依赖于所有父RDD分区
 对单个RDD基于Key进行重组和Reduce，如groupByKey、reduceByKey
 对两个RDD基于Key进行Join和重组，如join

6.RDD的两种操作算子

 Transformation
Transformation操作是延迟计算的，即从一个RDD转换成另一个RDD的转换操作不是马上执行，需要等到有Action操作时，才真正出发执行。
常用的Transformation函数：

 Action
Action算子会出发Spark提交作业（Job），并将数据输出到Spark系统。
常用的Action函数：

Spark RDD详解的更多相关文章

Spark RDD详解 | RDD特性、lineage、缓存、checkpoint、依赖关系
RDD(Resilient Distributed Datasets)弹性的分布式数据集,又称Spark core,它代表一个只读的.不可变.可分区,里面的元素可分布式并行计算的数据集. RDD是一个 ...
Spark参数详解一（Spark1.6）
Spark参数详解 (Spark1.6) 参考文档:Spark官网在Spark的web UI在"Environment"选项卡中列出Spark属性.这是一个很有用的地方,可以检查 ...
Spark：常用transformation及action，spark算子详解
常用transformation及action介绍,spark算子详解一.常用transformation介绍 1.1 transformation操作实例二.常用action介绍 2.1 act ...
Spark框架详解
一.引言作者:Albert陈凯链接:https://www.jianshu.com/p/f3181afec605來源:简书 Introduction 本文主要讨论 Apache Spark 的设计与 ...
Spark中的Spark Shuffle详解
Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程.shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过s ...
HUE配置文件hue.ini 的Spark模块详解（图文详解）（分HA集群和HA集群）
不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168 ...
转载：Spark GraphX详解
1.GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求. ...
Spark配置详解
Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每个节点的 conf/spark-env.sh脚 ...
Spark源码系列（二）RDD详解
1.什么是RDD? 上一章讲了Spark提交作业的过程,这一章我们要讲RDD.简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据. RDD的全名是Resilient Di ...

随机推荐

Numpy统计
Numpy统计 axis=None 是统计函数的标配参数,默认不输入此参数则为对数组每一个元素进行计算,设定轴则对此轴上元素进行计算 1:常用统计函数 .sum(a,axis=None):数组a求和运 ...
java 元数据
什么是元数据? 元数据是指用来描述数据的数据,更通俗一点,就是描述代码间关系,或者代码与其他资源(例如数据库表)之间内在联系的数据.在一些技术框架,如struts.EJB.hibernate就不知不觉 ...
Ubuntu dns
在Ubuntu系统网络设备启动的流程中,会依赖/etc/network/interface的配置文件初始化网络接口,所以直接在/etc/network/interface之中配置好对应的dns服务器会 ...
Excel Sheet Column Title (STRING - TYPE CONVERTION)
QUESTION Given a positive integer, return its corresponding column title as appear in an Excel sheet ...
Princess Principal(思维题)
Princess Principal https://www.nowcoder.com/acm/contest/201/J 题目描述阿尔比恩王国(the Albion Kingdom)潜伏着一群代号 ...
DAO层注入HibernateTemplate的两种方式
-------------------------siwuxie095 DAO 层注入 HibernateTemplat ...
mongo嗅探器mongosniff
mongo嗅探器在更高版本被mongoreplay取代. 安装: 在Ubuntu直接apt-get install mongodb即包含有. 使用方法直接--help查看使用方法,一般使用: mo ...
collections系列之OrderedDict【有序字典】与DefaultDict【默认字典】
今天来向大家介绍一下collections系列中的OrderedDict和DefaultDict,这两种类均是通过collections来创建的,均是对dict字典加工,所有都继承了dict字典的方法 ...
jquery 赋值时不触发change事件解决
$("#optionsId").change(function(){ $("#selectOptionsText").val('测试'); }); $(&quo ...
BIOS设置找不到设置U盘启动
今天上午弄了好久,BIOS设置找不到设置U盘启动,后来改了一个选项突然就可以了,或许有时候是这个地方的问题 advanced bios features-->interrupt 19 captu ...