前言

　　用Spark有一段时间了，但是感觉还是停留在表面，对于Spark的RDD的理解还是停留在概念上，即只知道它是个弹性分布式数据集，其他的一概不知

有点略显惭愧。下面记录下我对RDD的新的理解。

官方介绍

　　弹性分布式数据集。 RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。

问题

只要你敢问度娘RDD是什么，包你看到一大片一模一样的答案，都是说这样的概念性的东西，没有任何的价值。

我只想知道 RDD为什么是弹性而不是不弹性， RDD到底是怎么存数据，在执行任务的过程中是咋哪个阶段读取数据。

什么是弹性

我的理解如下（若有误或不足，烦请指出更正）：

1. RDD可以在内存和磁盘之间手动或自动切换

2. RDD可以通过转换成其他的RDD，即血统

3. RDD可以存储任意类型的数据

存储的内容是什么

根据编写Spark任务的代码来看，很直观的感觉是RDD就是一个只读的数据，例如 rdd.foreach(println)

但是不是， RDD其实不存储真是的数据，只存储数据的获取的方法，以及分区的方法，还有就是数据的类型。

百闻不如一见，下面看看RDD的源码：

//其他的代码删除了，主要保留了它的两个抽象方法
abstract class RDD[T: ClassTag](

    @transient private var _sc: SparkContext,

    @transient private var deps: Seq[Dependency[_]]

  ) extends Serializable with Logging {

 
  //计算某个分区数据的方法 ，将某个分区的数据读成一个 Iterator
  def compute(split: Partition, context: TaskContext): Iterator[T]

  //计算分区信息 只会被调用一次

  protected def getPartitions: Array[Partition]

}

　　通过RDD的这两个抽象方法，我们可以看出：

RDD其实是不存储真是数据的，存储的的只是真实数据的分区信息getPartitions，还有就是针对单个分区的读取方法 compute

到这里可能就有点疑惑，要是RDD只存储这分区信息和读取方法，那么RDD的依赖信息是怎么保存的？

其实RDD是有保存的，只是我粘贴出的只是RDD顶层抽象类，还要一点需要注意，RDD只能向上依赖，而真正实现这两个方法的RDD都是整个任务的输入端，即处于RDD血统的顶层，初代RDD

举个例子：val rdd = sc.textFile(...); val rdd1 = rdd.map(f) . 这里的 rdd是初代RDD，是没有任何依赖的RDD的，所以没就没有保存依赖信息，而 rdd1是子代RDD，那么它就必须得记录下自己是来源于谁，也就是血统，

下面展示的是HadoopRDD和 MapPartitionsRDD

//负责记录数据的分区信息和读取方法

class HadoopRDD[K, V](
　　@transient sc: SparkContext,
　　broadcastedConf: Broadcast[SerializableConfiguration],
　　initLocalJobConfFuncOpt: Option[JobConf => Unit],
　　inputFormatClass: Class[_ <: InputFormat[K, V]],
　　keyClass: Class[K],
　　valueClass: Class[V],
　　minPartitions: Int)
　　extends RDD[(K, V)](sc, Nil) with Logging {

override def getPartitions: Array[Partition] = { ***篇幅所限自己查看**}

override def compute(theSplit: Partition, context: TaskContext): InterruptibleIterator[(K, V)] = {***篇幅所限自己查看**}

}

//子代RDD的作用起始很简单就是记录初代RDD到底在干了什么才得到了自己

private[spark] class MapPartitionsRDD[U: ClassTag, T: ClassTag](

    prev: RDD[T],  //上一代RDD

    f: (TaskContext, Int, Iterator[T]) => Iterator[U],  // (TaskContext, partition index, iterator)  //初代RDD生成自己的方法

    preservesPartitioning: Boolean = false)

  extends RDD[U](prev) {

  override val partitioner = if (preservesPartitioning) firstParent[T].partitioner else None

  override def getPartitions: Array[Partition] = firstParent[T].partitions

  override def compute(split: Partition, context: TaskContext): Iterator[U] =

    f(context, split.index, firstParent[T].iterator(split, context))

}

　　到这里，我们就大概了解了RDD到底存储了什么东西，

初代RDD: 处于血统的顶层，存储的是任务所需的数据的分区信息，还有单个分区数据读取的方法，没有依赖的RDD，因为它就是依赖的开始。

子代RDD: 处于血统的下层，存储的东西就是初代RDD到底干了什么才会产生自己，还有就是初代RDD的引用

现在我们基本了解了RDD里面到底存储了些什么东西，那么问题就来了，到底读取数据发生在什么时候。

数据读取发生在什么时候

直接开门见山的说，数据读取是发生在运行的Task中，也就是说，数据是在任务分发的executor上运行的时候读取的，上源码：

private[spark] class ResultTask[T, U](

    stageId: Int,

    stageAttemptId: Int,

    taskBinary: Broadcast[Array[Byte]],

    partition: Partition,

    @transient locs: Seq[TaskLocation],

    val outputId: Int,

    internalAccumulators: Seq[Accumulator[Long]])

  extends Task[U](stageId, stageAttemptId, partition.index, internalAccumulators)

  with Serializable {

  @transient private[this] val preferredLocs: Seq[TaskLocation] = {

    if (locs == null) Nil else locs.toSet.toSeq

  }

  override def runTask(context: TaskContext): U = {

    // Deserialize the RDD and the func using the broadcast variables.

    val deserializeStartTime = System.currentTimeMillis()

    val ser = SparkEnv.get.closureSerializer.newInstance()

    val (rdd, func) = ser.deserialize[(RDD[T], (TaskContext, Iterator[T]) => U)](

      ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader)

    _executorDeserializeTime = System.currentTimeMillis() - deserializeStartTime

    metrics = Some(context.taskMetrics)

    func(context, rdd.iterator(partition, context))  //这里调用了 rdd.iterator ， 下面看看RDD的这个方法

  }

  // This is only callable on the driver side.

  override def preferredLocations: Seq[TaskLocation] = preferredLocs

  override def toString: String = "ResultTask(" + stageId + ", " + partitionId + ")"

}

final def iterator(split: Partition, context: TaskContext): Iterator[T] = {
　　if (storageLevel != StorageLevel.NONE) {

//先判断是否有缓存，有则直接从缓存中取，没有就从磁盘中取出来，然后再执行缓存操作
　　　　SparkEnv.get.cacheManager.getOrCompute(this, split, context, storageLevel)
　　} else {

//直接从磁盘中读取或从检查点中读取
　　　　computeOrReadCheckpoint(split, context)
　　}
}

　　在spark中的任务最终是会被分解成多个TaskSet到executor上运行，TaskSet的划分是根据是否需要shuffle来的。

在spark中就只有两种Task，一种是ResultTask ，一种是ShuffleTask，两种Task都是以相同的方式读取RDD的数据。

Spark RDD到底是个什么东西的更多相关文章

【spark 深入学习 03】Spark RDD的蛮荒世界
RDD真的是一个很晦涩的词汇,他就是伯克利大学的博士们在论文中提出的一个概念,很抽象,很难懂:但是这是spark的核心概念,因此有必要spark rdd的知识点,用最简单.浅显易懂的词汇描述.不想用学 ...
spark RDD 常见操作
fold 操作区别与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.so ...
关于Spark RDD 的认识
一.基本认识 RDD 是Spark大数据计算引擎中,抽象的一种数据结构. RDD(Resilient Distributed Dataset),中文意思是弹性分布式数据集,它是Spark中的基本抽象. ...
通过WordCount解析Spark RDD内部源码机制
一.Spark WordCount动手实践我们通过Spark WordCount动手实践,编写单词计数代码:在wordcount.scala的基础上,从数据流动的视角深入分析Spark RDD的数据 ...
Spark Rdd coalesce()方法和repartition()方法
在Spark的Rdd中,Rdd是分区的. 有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区.或者需要把Rdd的分区数量 ...
Spark RDD API详解(一) Map和Reduce
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RDD可以简单看成是一个数组.和普通数组的区别是,RDD中的数据是分区存储的,这样不同 ...
Spark RDD aggregateByKey
aggregateByKey 这个RDD有点繁琐,整理一下使用示例,供参考直接上代码 import org.apache.spark.rdd.RDD import org.apache.spark. ...
Spark RDD解密
1. 基于数据集的处理: 从物理存储上加载数据,然后操作数据,然后写入数据到物理设备; 基于数据集的操作不适应的场景: 不适合于大量的迭代: 不适合交互式查询:每次查询都需要对磁盘进行交互. 基于数 ...
Spark - RDD（弹性分布式数据集）
org.apache.spark.rddRDDabstract class RDD[T] extends Serializable with Logging A Resilient Distribut ...

随机推荐

两种include方式及filter中的dispatcher解析
两种include方式我自己写了一个original.jsp,另外有一个includedPage.jsp,我想在original.jsp中把includedPage.jsp引进来有两种方式: 1.& ...
Unity3D热更新全书-下载唯一的一篇
下载在这个时代实在是太平常了,每个人都深刻的理解着下载到底是什么. 这一篇文字只是把下载的代码分享并介绍,而已. 首先,下载系统担负着几个使命. 第一.是保持客户端版本库的最新. 第二.是下载要能够比 ...
vim添加或删除多行注释
一.多行注释的添加 1. vim的命令模式下(ESC 进入命令模式): 2. 按CTRL+V进入可视化模式(VISUAL BLOCK): 注意:vim命令模式下v进入的是visual模式,ctrl+v ...
Android中pullToRefresh使用
pullToRefresh的导入首先,点击new按钮 -> import Module 然后在 New Module界面选择已经在本地的含有源代码的pullToRefresh. 打开如下图所示 ...
WebApi系列~安全校验中的防篡改和防复用
回到目录 web api越来越火,因为它的跨平台,因为它的简单,因为它支持xml,json等流行的数据协议,我们在开发基于面向服务的API时,有个问题一直在困扰着我们,那就是数据的安全,请求的安全,一 ...
MVVM架构~knockoutjs与MVC配合，实现列表的增删改功能
返回目录 MVC与MVVM的模型在MVC实例项目中,为我们提供了简单的增删改查功能,而这种功能的实现与具体的Model很有关系,或者说它与后台数据库的关系过于紧密了,而对于开发人员来说当页面布局修改 ...
爱上MVC3~为下拉列表框添加一个自定义验证规则
回到目录开发它的原因: 之前的同事,也是我的哥们,问我下拉列表框是否可以支持验证,这个问题看似简单,但确实MVC里有为我们提供,所以,只能自己写个扩展了,即自己写一个attribute特性,让它继承 ...
memcache和redis区别
memcache官方定义 Free & open source, high-performance, distributed memory object caching system, gen ...
第二天 Linux常见命令
复习: 判断题 1.fedora.redhat.Centos.suse.ubuntu.都是常见的linux 2./分区.swap分区./boot分区都是linux的必须分区 3./dev/sda5在l ...
hibernate学习笔记之一 hibernate简介
Hibernate是一个开放源代码的对象关系映射框架,它对JDBC进行了非常轻量级的对象封装,它将POJO与数据库表建立映射关系,是一个全自动的orm框架 hibernate可以自动生成SQL语句,自 ...

Spark RDD到底是个什么东西

前言