RDD 可视化 —— RDDOperationScope.withScope

最近在看各种博客，学习 spark 源代码。

网上对源代码的分析基本都是基于 0.7, 0.8, 1.0 的代码，而现在的发行版已经是 1.5 了。所以有些代码不大对的上。比如函数 RDD.map()

旧版本是：

def mapU: ClassTag: RDD[U] = new MappedRDD(this, sc.clean(f))

1.5 版本是：

def map[U: ClassTag](f: T => U): RDD[U] = withScope {

  val cleanF = sc.clean(f)

  new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF))

}

而且所有 RDD 的转化方法都调用了 RDDOperationScope.withScope，于是我就很好奇这个函数有什么作用。

它首先是根据堆栈信息（Thread.currentThread.getStackTrace）找出调用者的名字，比如 map, textFile, reduceByKey 等等，然后在 SparkContext 的属性 "spark.rdd.scope" 中新建了一个属性 RDDOperationScope(name: String, parent: RDDOperationScope)，用来记录当前的运行 RDD 信息。其中 parent 可以用来追溯到所有 RDD 操作信息，即 RDDOperationScope。

这又啥用？于是我 git blame 了一下，找到了代码的提交哈希值为 fc8b5819，再 git show，于是有了详细的介绍，第一行是

[SPARK-] [SPARK-] DAG visualization on SparkUI

原来是用来做 DAG 的可视化。再找到这个 SPARK-6943，有非常详细的动机描述：现有的 Spark UI 中只有 stage 的执行情况，而 stage 与用户代码中 rdd 的联系不够直接，如果代码复杂，很难根据 UI 信息了解到代码的执行情况，于是想强化 UI 中的 RDD 可视化功能，所以把所有创建 RDD 的方法包裹起来，使用 RDDOperationScope 记录 RDD 的操作历史和关联，就能达成目标。

RDD 可视化 —— RDDOperationScope.withScope的更多相关文章

scala语法在spark withScope上的应用
withSpout在spark中是用来做DAG可视化的,它在代码里的用法如下(以map为例,spark 2.0.0版本) def map[U: ClassTag](f: T => U): RDD ...
RDD概念、特性、缓存策略与容错
一.RDD概念与特性 1. RDD的概念 RDD(Resilient Distributed Dataset),是指弹性分布式数据集.数据集:Spark中的编程是基于RDD的,将原始数据加载到内存变成 ...
Spark RDD Action 简单用例(二)
foreach(f: T => Unit) 对RDD的所有元素应用f函数进行处理,f无返回值./** * Applies a function f to all elements of this ...
Spark RDD 算子总结
Spark算子总结算子分类 Transformation(转换) 转换算子含义 map(func) 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 filter(func) ...
RDD.scala（源码）
---- map. --- flatMap.fliter.distinct.repartition.coalesce.sample.randomSplit.randomSampleWithRange. ...
【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）
spark 2.1.1 spark初始化rdd的时候,需要读取文件,通常是hdfs文件,在读文件的时候可以指定最小partition数量,这里只是建议的数量,实际可能比这个要大(比如文件特别多或者特别 ...
【原创】大数据基础之Spark（6）Spark Rdd Sort实现原理
spark 2.1.1 spark中可以通过RDD.sortBy来对分布式数据进行排序,具体是如何实现的?来看代码: org.apache.spark.rdd.RDD /** * Return thi ...
Spark RDD深度解析-RDD计算流程
Spark RDD深度解析-RDD计算流程摘要 RDD(Resilient Distributed Datasets)是Spark的核心数据结构,所有数据计算操作均基于该结构进行,包括Spark ...
通过WordCount解析Spark RDD内部源码机制
一.Spark WordCount动手实践我们通过Spark WordCount动手实践,编写单词计数代码:在wordcount.scala的基础上,从数据流动的视角深入分析Spark RDD的数据 ...

随机推荐

MySQL之innodb和myisam的区别
innodb和myisam的区别: MyISAM在磁盘上存储成三个文件.第一个文件的名字以表的名字开始,扩展名指出文件类型, .frm文件存储表定义, 数据文件的扩展名为.MYD, 索引文件的扩展名是 ...
jvm学习：类的加载、连接、初始化、常量
类在jvm中有这几个过程类的加载.连接.初始化.使用.卸载类的加载类的加载是将class文件中的二进制数据加载到内存中,将其放在运行时的数据区:方法区内,然后在内存中创建一个 java.lang. ...
Session 'app': Error Installing APKs app 在手机或虚拟机上调试报错
解决方案: build --clean project
Python 基础之模块之os os.path 及os与shutil对比
一: os 对系统进行操作 #注:以下操作都在linux环境下操作,且很多运行之前需要做好相关条件import os#(1)system() 在python总执行系统命令#os.system(&quo ...
按钮UIButton的使用
一.使用概要当添加一个按钮到你的界面,执行以下步骤: 1.在创建时设置按钮的类型. 2.提供一个标题字符串或图像,为您的内容适当调整按钮的大小. 3.连接一个或多个操作按钮的方法. 4.设置自动布局 ...
「ZJOI2006」物流运输
题目 [内存限制:$256MiB$][时间限制:$1000ms$] [标准输入输出][题目类型:传统][评测方式:文本比较] [题目描述] 物流公司要把一批货物从码头 A 运到码头 B.由于货物量比较 ...
学习进度-16 python爬虫
爬虫是一个程序,这个程序的目的就是为了抓取万维网信息资源,比如你日常使用的谷歌等搜索引擎,搜索结果就全都依赖爬虫来定时获取从百度可以看出来爬虫与python关系很紧密, 爬虫的目标对象也很丰富,不 ...
JS链接转换为二维码
这里用到一个JQ插件 qrcode.js 下载地址https://github.com/jeromeetienne/jquery-qrcode 先引入 <script src="j ...
RTL级低功耗设计
重点:门控时钟和操作数隔离 1.并行与流水的选择并行与流水都是用面积换速度,但是有时可以降低功耗并行处理常用于数字信号处理部分,采用并行处理,也已降低系统工作频率从而降低功耗用两个乘法器取代原设 ...
rsa免密钥登陆
#第一步生成密钥,一路回车就行 ssh-keygen -t rsa #第二步将密钥拷贝到目标服务器上,注意双引号 ssh-copy-id -i ~/.ssh/id_rsa.pub "ro ...

RDD 可视化 —— RDDOperationScope.withScope

RDD 可视化 —— RDDOperationScope.withScope的更多相关文章

随机推荐

热门专题