Spark GraphX的函数源码分析及应用实例

1. outerJoinVertices函数

首先给出源代码

 override def outerJoinVertices[U: ClassTag, VD2: ClassTag]

       (other: RDD[(VertexId, U)])                   //带插入的顶点信息

       (updateF: (VertexId, VD, Option[U]) => VD2)   //更新函数

       (implicit eq: VD =:= VD2 = null): Graph[VD2, ED] = {

     // The implicit parameter eq will be populated by the compiler if VD and VD2 are equal, and left

     // null if not
　　　　// 其中，VD2表示最终生成的新图的VD类型；VD表示原图的VD类型

     if (eq != null) {         //如果新旧两个图的VD类型不一致

       vertices.cache()

       // updateF preserves type, so we can use incremental replication

       val newVerts = vertices.leftJoin(other)(updateF).cache()                   //对图的顶点做左连接

       val changedVerts = vertices.asInstanceOf[VertexRDD[VD2]].diff(newVerts)    //比较新生成的定点序列与原始定点序列直接修改格式后的序列之间的差异

       val newReplicatedVertexView = replicatedVertexView.asInstanceOf[ReplicatedVertexView[VD2, ED]]

         .updateVertices(changedVerts)                                            //根据changedVerts构造新的replicatedVertexView

  　　　new GraphImpl(newVerts, newReplicatedVertexView) 
  　　} else { 
         // updateF does not preserve type, so we must re-replicate all vertices 
         val newVerts = vertices.leftJoin(other)(updateF) 
  　　　　GraphImpl(newVerts, replicatedVertexView.edges) 
  　　　}
 }

其中， replicatedVertexView的官方解释是：“Manages shipping vertex attributes to the edge partitions of an EdgeRDD. Vertex attributes may be partially shipped to construct a triplet view with vertex attributes on only one side, and they may be updated. ” 个人理解是在边对象的上面增加了顶点属性。

针对官方的例子：

1 val graph = followerGraph.outerJoinVertices(users) {

2   case (uid, deg, Some(attrList)) => attrList

3   case (uid, deg, None) => Array.empty[String]

4 }

首先介绍代码目的： followerGraph是通过调用GraphLoader.edgeListFile()函数，从边文件中读入的。由于边文件中只存储了相应的顶点编号，没有定点对应的属性。因此需要使用user(VertexId, attr)来将定点信息补全。

其中，deg为followerGraph的顶点属性，case的第三个参数attrList表示user的顶点属性。箭头(=>)后的attrList表示修改后followerGraph的顶点属性。

通过源代码可以看出，在执行outerJoinVertices时，首先执行的是顶点序列(VertexRDD)的LeftJoin，也就是将顶点编号一致的顶点的属性替换到followerGraph中。

Spark GraphX的函数源码分析及应用实例的更多相关文章

Vue中之nextTick函数源码分析
Vue中之nextTick函数源码分析 1. 什么是Vue.nextTick()?官方文档解释如下:在下次DOM更新循环结束之后执行的延迟回调.在修改数据之后立即使用这个方法,获取更新后的DOM. 2 ...
PHP 源码 — intval 函数源码分析
PHP 源码 - intval 函数源码分析文章来源: https://github.com/suhanyujie/learn-computer/ 作者:suhanyujie 基于PHP 7.3.3 ...
PHP 源码 —— is_array 函数源码分析
is_array 函数源码分析本文首发于 https://github.com/suhanyujie/learn-computer/blob/master/src/function/array/is ...
序列化器中钩子函数源码分析、many关键字源码分析
局部钩子和全局钩子源码分析(2星) # 入口是 ser.is_valid(),是BaseSerializer的方法 # 最核心的代码 self._validated_data = self.run_v ...
spark的存储系统--BlockManager源码分析
spark的存储系统--BlockManager源码分析根据之前的一系列分析,我们对spark作业从创建到调度分发,到执行,最后结果回传driver的过程有了一个大概的了解.但是在分析源码的过程中也 ...
Vue源码分析(二) : Vue实例挂载
Vue源码分析(二) : Vue实例挂载 author: @TiffanysBear 实例挂载主要是 $mount 方法的实现,在 src/platforms/web/entry-runtime-wi ...
JVM源码分析-类加载场景实例分析
A类调用B类的静态方法,除了加载B类,但是B类的一个未被调用的方法间接使用到的C类却也被加载了,这个有意思的场景来自一个提问:方法中使用的类型为何在未调用时尝试加载?. 场景如下: public cl ...
Spark MLlib - Decision Tree源码分析
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...
【Spark篇】---Spark中资源和任务调度源码分析与资源配置参数应用
一.前述 Spark中资源调度是一个非常核心的模块,尤其对于我们提交参数来说,需要具体到某些配置,所以提交配置的参数于源码一一对应,掌握此节对于Spark在任务执行过程中的资源分配会更上一层楼.由于源 ...

随机推荐

asp.net尽量不在js里写<%%>
asp.net尽量不在js里写<%%> eg: <script type="text/javascript"> var rootsid="&quo ...
【BZOJ1483】【链表启发式合并】梦幻布丁
Description N个布丁摆成一行,进行M次操作.每次将某个颜色的布丁全部变成另一种颜色的,然后再询问当前一共有多少段颜色.例如颜色分别为1,2,2,1的四个布丁一共有3段颜色. Input 第 ...
【POJ1442】【Treap】Black Box
Description Our Black Box represents a primitive database. It can save an integer array and has a sp ...
Linux（Debian）下Maven的安装
Maven的下载地址:http://maven.apache.org/download.cgi这里以最新的3.3.9版本为例进行安装,在这之前需要确保机器上已经安装了JDK. -- 在home文件夹中 ...
http拦截器interceptors
在服务里配置$httpProvider.interceptors的相关参数包含 request请求拦截 response响应拦截 requestError请求错误抛出 responseError响应 ...
YII框架的部署通过YII脚手架程序创建应用程序系统
1,把YII框架里面的framework复制粘贴到nginx目录下 2,创建一个商城系统: 1)修改环境变量制定php.exe的目录 2)C:\Users\Administrator>cd C ...
Android各种访问权限Permission详解
原文:http://jingyan.baidu.com/article/afd8f4de4688af34e386e976.html 在Android的设计中,资源的访问或者网络连接,要得到这些服务都需 ...
再次探究Android ListView缓存机制
概述虽然现在5.0后Google推出了RecycleView,但在5.0 Lollipop普及前Listview仍会被广泛使用,所以打算再次探究一下Listview的源码,了解一下Listview ...
Josephus
利用循环链表模拟约瑟夫问题,把自杀的人的顺序排列出来代码如下: #include<stdio.h> #include<stdlib.h> typedef int status ...
如何将BarTender内容锁定不让改动
条码标签代表的是产品的特性等,具有相当的精确性,所以需要保证它的正确性.而使用BarTender软件,可以帮助小伙伴将设计的条码标签内容锁定,保护它而不被人改动.下面,小编就教教大家如何实现BarTe ...

Spark GraphX的函数源码分析及应用实例

Spark GraphX的函数源码分析及应用实例的更多相关文章

随机推荐

热门专题