spark-RDD源码分析

http://stark-summer.iteye.com/blog/2178096

RDD的核心方法：

首先看一下getPartitions方法的源码：

getPartitions返回的是一系列partitions的集合，即一个Partition类型的数组

我们就想进入HadoopRDD实现：

1、getJobConf()：用来获取job Configuration，获取配置方式有clone和非clone方式，但是clone方式是not thread-safe,默认是禁止的，非clone方式可以从cache中获取，如cache中没有那就创建一个新的，然后再放到cache中

2、进入 getInputFormcat(jobConf)方法：

3、进入inputFormat.getSplits(jobConf, minPartitions)方法：

进入FileInputFormcat类的getSplits方法：

5、进入HadoopPartition：

而getDependencies表达式RDD之间的依赖关系，如下所示：

getDependencies返回的是依赖关系的一个Seq集合，里面的Dependency数组中的下划线是类型的PlaceHolder

我们进入ShuffledRDD类中的getDependencies方法：

我们进入ShuffleDependency类：

每个RDD都会具有计算的函数，如下所示：

我们进入HadoopMapPartitionsWithSplitRDD的 compute方法：

Compute方法是针对RDD的每个Partition进行计算的，其TaskContext参数的源码如下：

getPreferredLocations是寻找Partition的首选位置：

我们进入NewHadoopRDD的getPreferredLocations：

其实RDD还有一个可选的分区策略：

Partitioner的源码如下：

可以看出默认使用的是HashPartitioner，要注意key为Array的情况；

spark.default.parallelism必须要设置，否则会根据partitions数据来传输RDD，这样也会很容易出现OOM

spark-RDD源码分析的更多相关文章

第七篇：Spark SQL 源码分析之Physical Plan 到 RDD的具体实现
/** Spark SQL源码分析系列文章*/ 接上一篇文章Spark SQL Catalyst源码分析之Physical Plan,本文将介绍Physical Plan的toRDD的具体实现细节: ...
第十一篇：Spark SQL 源码分析之 External DataSource外部数据源
上周Spark1.2刚发布,周末在家没事,把这个特性给了解一下,顺便分析下源码,看一看这个特性是如何设计及实现的. /** Spark SQL源码分析系列文章*/ (Ps: External Data ...
第十篇：Spark SQL 源码分析之 In-Memory Columnar Storage源码分析之 query
/** Spark SQL源码分析系列文章*/ 前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的. 那么基于以上存储结构,我们查询cache在 ...
第九篇：Spark SQL 源码分析之 In-Memory Columnar Storage源码分析之 cache table
/** Spark SQL源码分析系列文章*/ Spark SQL 可以将数据缓存到内存中,我们可以见到的通过调用cache table tableName即可将一张表缓存到内存中,来极大的提高查询效 ...
第一篇：Spark SQL源码分析之核心流程
/** Spark SQL源码分析系列文章*/ 自从去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst,到至今1年多了,Spark SQL的贡献者从几人 ...
【Spark SQL 源码分析系列文章】
从决定写Spark SQL源码分析的文章,到现在一个月的时间里,陆陆续续差不多快完成了,这里也做一个整合和索引,方便大家阅读,这里给出阅读顺序 :) 第一篇 Spark SQL源码分析之核心流程第二 ...
RDD源码分析
RDD源码解析一. RDD.scala - Resilient Distributed Dataset (RDD) 弹性分布式数据集弹性: 体现在计算上面 - the basic abstract ...
【Spark】源码分析之RDD的生成及stage的切分
一.概述 Spark源码整体的逻辑(spark1.3.1): 从saveAsTextFile()方法入手 -->saveAsTextFile() --> saveAsHadoopFile ...
10.Spark Streaming源码分析:Receiver数据接收全过程详解
原创文章,转载请注明:转载自听风居士博客(http://www.cnblogs.com/zhouyf/) 在上一篇中介绍了Receiver的整体架构和设计原理,本篇内容主要介绍Receiver在 ...
【Spark】源码分析之spark-submit
在客户端执行脚本sbin/spark-submit的时候,通过cat命令查看源码可以看出,实际上在源码中将会执行bin/spark-class org.apache.spark.deploy.Spar ...

随机推荐

C++版 - HDUoj 2010 3阶的水仙花数 - 牛客网
版权声明: 本文为博主Bravo Yeung(知乎UserName同名)的原创文章,欲转载请先私信获博主允许,转载时请附上网址 http://blog.csdn.net/lzuacm. C++版 - ...
npm 包的发布流程
npm 包的发布流程本文主要是针对还未曾发布过自己的 npm 的同学,阐述一下 npm 的发布流程熟悉的同学,可以绕道了. 首先你得有一个自己的 npmjs.com 的账号 (没有的话,就到 ...
在龙芯小本上安装Debain8.10
(图片是LEMOTE8089D笔记本,来自互联网) YX原来送了一个LEMOTE笔记本给我.CPU是首款真正的国产,龙芯2F,兼容mips的指令集. 笔记本原来的操作系统是Debian6,后来升级到了 ...
macOS的OpenCL高性能计算
随着深度学习.区块链的发展,人类对计算量的需求越来越高,在传统的计算模式下,压榨GPU的计算能力一直是重点. NV系列的显卡在这方面走的比较快,CUDA框架已经普及到了高性能计算的各个方面,比如Goo ...
Kafka监控系统Kafka Eagle剖析
1.概述最近有同学留言反馈了使用Kafka监控工具Kafka Eagle的一些问题,这里笔者特意整理了这些问题.并且希望通过这篇博客来解答这些同学的在使用Kafka Eagle的时候遇到的一些困惑, ...
consistent hash(一致性哈希算法)
一.产生背景今天咱不去长篇大论特别详细地讲解consistent hash,我争取用最轻松的方式告诉你consistent hash算法是什么,如果需要深入,Google一下~. 举个栗子吧: 比如 ...
PC逆向之代码还原技术,第三讲汇编中加法的代码还原
目录 PC逆向之代码还原技术,第三讲汇编中加法的代码还原一丶汇编简介二丶高级代码对应汇编观看. 1.代码还原解析: 总结 PC逆向之代码还原技术,第三讲汇编中加法的代码还原一丶汇编简介在讲解加 ...
ASP.NET Core 2.0 : 八.图说管道，唐僧扫塔的故事
本文通过一张GIF动图来继续聊一下ASP.NET Core的请求处理管道,从管道的配置.构建以及请求处理流程等方面做一下详细的研究.(ASP.NET Core系列目录) 一.概述上文说到,请求是经过 ...
Docker中安装WordPress
前言虚拟化技术风靡一时,还不层在生产环境中实践.只能是闭门造车,自己玩一玩了,接触了一下docker最简单的命令,这才自己搭建一个wordpress玩一玩. 安装wordpress之前先把本机的do ...
EF三种编程方式的区别Database first ，Model first ，code first
首先对于EF中先出现的datebase first和model first两种编程方式,其的区别根据字面意思很容易能够理解. datebase first就是代表数据库优先,那么前提就是先创建数据 ...

spark-RDD源码分析

spark-RDD源码分析的更多相关文章

随机推荐

热门专题