RDD的源码

RDD是一个抽象类定义了所有RDD共有的一些属性和方法，下面介绍了主要的属性和方法。

abstract class RDD[T: ClassTag](

    @transient private var _sc: SparkContext,

    @transient private var deps: Seq[Dependency[_]]

  ) extends Serializable with Logging {

RDD有5个主要的属性

 *  - A list of partitions

 *  - A function for computing each split

 *  - A list of dependencies on other RDDs

 *  - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)

 *  - Optionally, a list of preferred locations to compute each split on (e.g. block locations for

 *    an HDFS file)

（一）子类

CoGroupedRDD, EdgeRDD, EdgeRDDImpl, HadoopRDD, JdbcRDD, NewHadoopRDD, PartitionPruningRDD, ShuffledRDD, UnionRDD, VertexRDD, VertexRDDImpl

（二）属性

1、SpackContext

@transient private var _sc: SparkContext

在主构建函数中定义，表示RDD所在运行环境，可用于获取配置，清理环境等。

2、Seq[Dependency[_]]

@transient private var deps: Seq[Dependency[_]]

定义了这个RDD对父RDD的依赖关系。

（三）方法

1、tranformation与action

RDD中定义了所有RDD所共用的tranformation与action，如map, filter, reduce, first等，举个filter的例子：

 def filter(f: T => Boolean): RDD[T] = withScope {

    val cleanF = sc.clean(f)

    new MapPartitionsRDD[T, T](

      this,

      (context, pid, iter) => iter.filter(cleanF),

      preservesPartitioning = true)

  }

2、缓存

包括pesist的多个实现及cache等，举个例子

 /**

   * Mark this RDD for persisting using the specified level.

   *

   * @param newLevel the target storage level

   * @param allowOverride whether to override any existing level with the new one

   */

  private def persist(newLevel: StorageLevel, allowOverride: Boolean): this.type = {

    // TODO: Handle changes of StorageLevel

    if (storageLevel != StorageLevel.NONE && newLevel != storageLevel && !allowOverride) {

      throw new UnsupportedOperationException(

        "Cannot change storage level of an RDD after it was already assigned a level")

    }

    // If this is the first time this RDD is marked for persisting, register it

    // with the SparkContext for cleanups and accounting. Do this only once.

    if (storageLevel == StorageLevel.NONE) {

      sc.cleaner.foreach(_.registerRDDForCleanup(this))

      sc.persistRDD(this)

    }

    storageLevel = newLevel

    this

  }

RDD的源码的更多相关文章

通过WordCount解析Spark RDD内部源码机制
一.Spark WordCount动手实践我们通过Spark WordCount动手实践,编写单词计数代码:在wordcount.scala的基础上,从数据流动的视角深入分析Spark RDD的数据 ...
Spark RDD类源码阅读
每天进步一点点~开搞~ abstract class RDD[T: ClassTag]( //@transient 注解表示将字段标记为瞬态的 @transient private var _sc: ...
Spark源码分析 – 汇总索引
http://jerryshao.me/categories.html#architecture-ref http://blog.csdn.net/pelick/article/details/172 ...
spark源码分析以及优化
第一章.spark源码分析之RDD四种依赖关系一.RDD四种依赖关系 RDD四种依赖关系,分别是 ShuffleDependency.PrunDependency.RangeDependency和O ...
Spark RDD/Core 编程 API入门系列之rdd实战（rdd基本操作实战及transformation和action流程图）（源码）（三）
本博文的主要内容是: 1.rdd基本操作实战 2.transformation和action流程图 3.典型的transformation和action RDD有3种操作: 1. Trandform ...
RDD.scala（源码）
---- map. --- flatMap.fliter.distinct.repartition.coalesce.sample.randomSplit.randomSampleWithRange. ...
Spark源码系列:RDD repartition、coalesce 对比
在上一篇文章中 Spark源码系列:DataFrame repartition.coalesce 对比对DataFrame的repartition.coalesce进行了对比,在这篇文章中,将会对R ...
Spark 源码分析 -- RDD
关于RDD, 详细可以参考Spark的论文, 下面看下源码 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. ...
第七篇：Spark SQL 源码分析之Physical Plan 到 RDD的具体实现
/** Spark SQL源码分析系列文章*/ 接上一篇文章Spark SQL Catalyst源码分析之Physical Plan,本文将介绍Physical Plan的toRDD的具体实现细节: ...

随机推荐

Entity Framework底层操作封装V2版本号（4）
这个版本号里面.由于涉及到了多库的操作.原有的系统方法不能做到这种事情了.所以这里有了一点差别这个类的主要用作就是,连接字符串的作用,默认是指向默认配置里面的,可是你能够指向其它的连接 using ...
2014年王道论坛研究生机试练习赛（一） set 1 GrassLand密码
题目根据手机按键上的对应关系将字母转成数字, 简单模拟题总结 1. scanf("%s", input); 不需要加上 & 2. 字符串的终结符是 '\0' 3. sc ...
进程 vs. 线程（python的协程）（转廖雪峰老师python教程）
我们介绍了多进程和多线程,这是实现多任务最常用的两种方式.现在,我们来讨论一下这两种方式的优缺点. 首先,要实现多任务,通常我们会设计Master-Worker模式,Master负责分配任务,Work ...
swift - UITextField 的用法
1,文本框的创建,有如下几个样式: public enum UITextBorderStyle : Int { case none 无边框 case line 直线边框 cas ...
Java中自己定义缓存方式
说说自己在开发中经常用到的写法. /** * 数据缓存 * @author * */public class DataCache { /** 对象缓存*/ public static Ma ...
【渗透测试学习平台】 web for pentester -8.XML
example1: http://192.168.91.139/xml/example1.php?xml=%3C%3Fxml%20version%3D%221.0%22%20encoding%3D%2 ...
echo\awk\sed\tee\curl的使用-shell
echo的使用:http://man.linuxde.net/echo awk的使用:http://man.linuxde.net/awk sed的使用:http://man.linuxde.net/ ...
delphi中Case语法的使用方法
Case 语句If...Then…Else 语句适合选项较少的情况,如果有很多选项的话利用If 语句就比较麻烦,在这种情况下,Case 语句就容易多了.Case 语句的语法如下: case <表 ...
Tomcat远程任意代码执行漏洞及其POC（CVE-2017-12617）
一.原理分析: 只需参数readonly设置为false或者使用参数readonly设置启用WebDAV servlet false,则Tomcat可以不经任何身份验证的控制直接接收PUT方式上传的文 ...
【BZOJ2157】旅游树链剖分+线段树
[BZOJ2157]旅游 Description Ray 乐忠于旅游,这次他来到了T 城.T 城是一个水上城市,一共有 N 个景点,有些景点之间会用一座桥连接.为了方便游客到达每个景点但又为了节约成本 ...