RDD源码解析

一、

RDD.scala

- Resilient Distributed Dataset (RDD)

    弹性分布式数据集

    弹性: 体现在计算上面

- the basic abstraction in Spark

- Represents an immutable

    val

    RDDA == RDDB

- partitioned collection of elements

- that can be operated on in parallel 

RDDA: (1,2,3,4,5,6,7,8,9)               operated +1。(对RDD执行加1的操作)

    hadoop000:Partition1: (1,2,3)        +1

    hadoop001:Partition2: (4,5,6)        +1

    hadoop002:Partition3: (7,8,9)        +1

对RDD上的所有元素进行加1,他在hadoop000,hadoop001,hadoop002三台机器上同时进行

对RDD进行操作,也就是对`RDD上的所有分区进行操作`

abstract class RDD[T: ClassTag](

    @transient private var _sc: SparkContext,

    @transient private var deps: Seq[Dependency[_]]

  ) extends Serializable with Logging {}

关键字: (从上面获得的信息)

1) 抽象类: RDD必然是有之类实现的,我们使用时直接使用其之类即可

2) Serializable(序列化)

3) Logging(日志)

4) T (泛型)

5) SparkContext (入口点)

6) @transient(注解,暂时不懂)

二、JdbcRDD.scala

class JdbcRDD[T: ClassTag](

    sc: SparkContext,

    getConnection: () => Connection,

    sql: String,

    lowerBound: Long,

    upperBound: Long,

    numPartitions: Int,

    mapRow: (ResultSet) => T = JdbcRDD.resultSetToObjectArray _)

  extends RDD[T](sc, Nil) with Logging {

三、 RDD五大特性:

Internally, each RDD is characterized by five main properties:

        (1、2、3必选,4、5可选)

    1) A list of partitions    (分区列表)

    2) A function for computing each split/partition   (用于计算每个 分片/分区 的函数)

    3) A list of dependencies on other RDDs   (其它的RDD依赖关系)

            RDDA => RDDB => RDDC ==> RDDD

    4) Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)    (可选的,用于键值RDD的分区程序,(例如: 说明RDD时哈希分区))

    5) Optionally, a list of preferred locations to compute each split on (e.g. block locations foran HDFS file) (可选的,用于计算每个首选位置的分片列表(例如: 块位置为HDFS文件))

   preferred locations (一个RDD,对应多个partition,所有有 s )

   深入理解 RDD 与 关键字 之间的关系

   Resilient、Distributed、Dataste   (弹性、分布式、数据集)

    (木桶原理,性能由最短的那块板决定,由最慢的任务决定计算性能)

四、RDD五大特性和RDD源码中方法的对应关系

  1) def compute(split: Partition, context: TaskContext): Iterator[T]

  2) protected def getPartitions: Array[Partition]

  3) protected def getDependencies: Seq[Dependency[_]] = deps

  4) protected def getPreferredLocations(split: Partition): Seq[String] = Nil

  5) @transient val partitioner: Option[Partitioner] = None

RDD源码分析的更多相关文章

第七篇：Spark SQL 源码分析之Physical Plan 到 RDD的具体实现
/** Spark SQL源码分析系列文章*/ 接上一篇文章Spark SQL Catalyst源码分析之Physical Plan,本文将介绍Physical Plan的toRDD的具体实现细节: ...
Spark中决策树源码分析
1.Example 使用Spark MLlib中决策树分类器API,训练出一个决策树模型,使用Python开发. """ Decision Tree Classifica ...
SparkMLlib之 logistic regression源码分析
最近在研究机器学习,使用的工具是spark,本文是针对spar最新的源码Spark1.6.0的MLlib中的logistic regression, linear regression进行源码分析,其 ...
Spark MLlib - Decision Tree源码分析
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...
《深入理解Spark：核心思想与源码分析》（第2章）
<深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析> ...
Spark技术内幕：Stage划分及提交源码分析
http://blog.csdn.net/anzhsoft/article/details/39859463 当触发一个RDD的action后,以count为例,调用关系如下: org.apache. ...
Spark Scheduler模块源码分析之TaskScheduler和SchedulerBackend
本文是Scheduler模块源码分析的第二篇,第一篇Spark Scheduler模块源码分析之DAGScheduler主要分析了DAGScheduler.本文接下来结合Spark-1.6.0的源码继 ...
Spark Scheduler模块源码分析之DAGScheduler
本文主要结合Spark-1.6.0的源码,对Spark中任务调度模块的执行过程进行分析.Spark Application在遇到Action操作时才会真正的提交任务并进行计算.这时Spark会根据Ac ...
Spark-RDD之Partition源码分析
概要 Spark RDD主要由Dependency.Partition.Partitioner组成,Partition是其中之一.一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的spl ...

随机推荐

自动化部署-svn hook触发构建
目的之前是通过轮询的形式,2分钟更新一次svn,即时性不高,现在想要实现提交代码时直接触发构建方案使用svn的服务器hook,当有代码提交时请求jenkins api实现构建具体实现 1.je ...
linux下C/C++编译时系统搜索 include 和链接库文件路径的指定
C/C++程序在linux下被编译和连接时,GCC/G++会查找系统默认的include和link的路径,以及自己在编译命令中指定的路径.自己指定的路径就不说了,这里说明一下系统自动搜索的路径. ...
node.js是用来做什么的？这是我看到最好的解释了
一种JavaScript的运行环境,能够使得JavaScript脱离浏览器运行. 参考链接:https://www.cnblogs.com/suhaihong/p/6598308.html https ...
imutils.path
from imutils import paths # 要在哪条路径下查找 path = '...' # 查找图片,得到图片路径 imagePaths = list(imutils.paths.lis ...
angular 多路由模块新建组件的方法
More than one module matches. Use skip-import option to skip importing the component into the closes ...
很多人都会做错的一道JVM题？【分享】
有关Java虚拟机类加载机制相关的文章一搜一大把,笔者这儿也不必再赘述一遍了.笔者这儿捞出一道code题要各位大佬来把玩把玩,假定你一眼就看出了端倪,那么祝贺你,你可以下山了: public cla ...
Paper | A Pseudo-Blind Convolutional Neural Network for the Reduction of Compression Artifacts
目录非盲增强网络结构训练目标压缩系数预测子网络网络结构根据块QP判决结果得到帧QP预测结果保持时序连续性实验发表在2019年TCSVT. 本文提出了一个兼具预测压缩系数和非盲去压 ...
python django url直接访问txt文件。urls.py路由直接指向txt文件
from django.views.generic import TemplateView urlpatterns = [ url(r'^test/',TemplateView.as_view(tem ...
深度解密Go语言之context
目录什么是 context 为什么有 context context 底层实现原理整体概览接口 Context canceler 结构体 emptyCtx cancelCtx timerCtx ...
python-5-str常用操作
前言本节将讲解的是字符串 str 常用的操作方法,与 for 循环. 一.srt 常用操作 1.首个字母大写: # 1.首个字母大写 s = 'xiao long' s1 = s.capitaliz ...

RDD源码分析

RDD源码解析

一、

二、JdbcRDD.scala

三、 RDD五大特性:

四、RDD五大特性和RDD源码中 方法的 对应关系

RDD源码分析的更多相关文章

随机推荐

热门专题

四、RDD五大特性和RDD源码中方法的对应关系