背景

简单分析一下GraphX是怎么为图数据建模和存储的。

入口

能够看GraphLoader的函数。

def edgeListFile(

      sc: SparkContext,

      path: String,

      canonicalOrientation: Boolean = false,

      numEdgePartitions: Int = -1,

      edgeStorageLevel: StorageLevel = StorageLevel.MEMORY_ONLY,

      vertexStorageLevel: StorageLevel = StorageLevel.MEMORY_ONLY)

    : Graph[Int, Int]

path能够是本地路径(文件或目录)，也能够是hdfs路径，本质上是使用sc.textFile来生成HadoopRDD的，numEdgePartitions是分区数。
Graph的存储是分EdgeRDD和VertexRDD两块，能够分别设置StorageLevel。默认是内存。
这个函数接受边文件。即’1 2’, ‘4 1’这种点到点的数据对组成的文件。

把这份文件按分区数和存储level转化成一个能够操作的图。

流程

sc.textFile读文件。生成原始的RDD
每一个分区(的计算节点)把每条记录放进PrimitiveVector里，这个结构是spark里为primitive数据优化的存储结构。
把PrimitiveVector里的数据一条条取出。转化成EdgePartition，即EdgeRDD的分区实现。这个过程中生成了面向列存的结构：src点的array，dst点的array。edge的属性array，以及两个正反向map(用于相应点的local id和global id)。
对EdgeRDD 做一次count触发这次边建模任务，真正persist起来。
用EdgePartition去生成一个RoutingTablePartition，里面是vertexId到partitionId的相应关系。借助RoutingTablePartition生成VertexRDD。
由EdgeRDD和VertexRDD生成Graph。前者维护了边的属性、边两头顶点的属性、两头顶点各自的global vertexID、两头顶点各自的local Id（在一个edge分区里的array index）、用于寻址array的正反向map。

后者维护了点存在于哪个边的分区上的Map。

下面是代码，比較清晰地展现了内部存储结构。

private[graphx]

class EdgePartition[

    @specialized(Char, Int, Boolean, Byte, Long, Float, Double) ED: ClassTag, VD: ClassTag](

    localSrcIds: Array[Int],

    localDstIds: Array[Int],

    data: Array[ED],

    index: GraphXPrimitiveKeyOpenHashMap[VertexId, Int],

    global2local: GraphXPrimitiveKeyOpenHashMap[VertexId, Int],

    local2global: Array[VertexId],

    vertexAttrs: Array[VD],

    activeSet: Option[VertexSet])

  extends Serializable {

/**

 * Stores the locations of edge-partition join sites for each vertex attribute in a particular

 * vertex partition. This provides routing information for shipping vertex attributes to edge

 * partitions.

 */

private[graphx]

class RoutingTablePartition(

    private val routingTable: Array[(Array[VertexId], BitSet, BitSet)]) extends Serializable {

细节

分区摆放

EdgeRDD的分区怎么切分的呢？由于数据是依据HadoopRDD从文件中依据offset扫出来的。能够理解为对边数据的切分是没有不论什么处理的。由于文件也没有特殊排列过，所以切分成多少个分区应该就是随机的。

VertexRDD的分区怎么切分的呢？EdgeRDD生成的vertexIdToPartitionId这份RDD数据是RDD[VertexId, Int]型，它依据hash分区规则，分成和EdgeRDD分区数一样大。

所以VertexRDD的分区数和Edge一样。分区规则是Long取hash。

所以我能够想象的计算过程是：

对点操作的时候，首先对vertexId(是个Long)进行hash，找到相应分区的位置，在这个分区上，假设是内存存储的VertexRDD，那非常快能够查到它的边所在的几个Edge分区的所在位置，然后把计算分到这几个Edge所在的分区上去计算。

第一步依据点hash后找边分区位置的过程就相似一次建好索引的查询。

配官方图方面理解：

高效数据结构

对原生类型的存储和读写有比較好的数据结构支持，典型的是EdgePartition里使用的map：

/**

 * A fast hash map implementation for primitive, non-null keys. This hash map supports

 * insertions and updates, but not deletions. This map is about an order of magnitude

 * faster than java.util.HashMap, while using much less space overhead.

 *

 * Under the hood, it uses our OpenHashSet implementation.

 */

private[graphx]

class GraphXPrimitiveKeyOpenHashMap[@specialized(Long, Int) K: ClassTag,

                              @specialized(Long, Int, Double) V: ClassTag](

以及之前提到的vector

/**

 * An append-only, non-threadsafe, array-backed vector that is optimized for primitive types.

 */

private[spark]

class PrimitiveVector[@specialized(Long, Int, Double) V: ClassTag](initialSize: Int = 64) {

  private var _numElements = 0

  private var _array: Array[V] = _

全文完 :)

GraphX 图数据建模和存储的更多相关文章

【mysql的设计与优化专题(1)】ER图，数据建模与数据字典
需求分析是做项目中的极为重要的一环,而作为整个项目中的'血液'--数据,更是重中之重.viso,workbench,phpmyadmin等软件可以帮我们更好的处理数据分析问题. ER图 E-R方法是& ...
《Entity Framework 6 Recipes》翻译系列 (3) -----第二章实体数据建模基础之创建一个简单的模型
第二章实体数据建模基础很有可能,你才开始探索实体框架,你可能会问“我们怎么开始?”,如果你真是这样的话,那么本章就是一个很好的开始.如果不是,你已经建模,并在实体分裂和继承方面感觉良好,那么你可以 ...
《驾驭Core Data》第三章数据建模
本文由海水的味道编译整理,请勿转载,请勿用于商业用途. 当前版本号:0.1.2 第三章数据建模 Core Data栈配置好之后,接下来的工作就是设计对象图,在Core Data框架中,对象图被表 ...
NoSQL 数据建模技术（转）
本文转载自:http://coolshell.cn/articles/7270.html ================================================ 全文译自墙外 ...
NoSQL数据建模技术
原文来自“NoSQL Data Modeling Techniques”,由酷壳网陈皓编译<NoSQL数据建模技术>.这篇文章看完之后,你可能会对NoSQL的数据结构会有些感觉.我的感觉是 ...
kityminder-editor + MongoDB 思维导图数据自动实时保存方案
最近开始做自己的第一个开源项目:一个基于思维导图的测试用例管理系统MinderCase,在做了一周的技术调研后,决定采用kityminder-editor作为思维导图编辑器,为了支持实时存储,当思维导 ...
Cassandra数据建模中最重要的事情：主键
Cassandra数据建模中要了解的最重要的事情:主键使用关系数据建模,您可以从主键开始,但是RDBMS中的有效数据模型更多地是关于表之间的外键关系和关系约束.由于Cassandra无法使用JOIN ...
Cassandra数据建模
1. 概述 Apache Cassandra将数据存储在表中,每个表都由行和列组成.CQL(Cassandra查询语言)用于查询存储在表中的数据.Apache Cassandra数据模型基于查询并针 ...
【翻译】ScyllaDB数据建模的最佳实践
文章翻译自Scylla官方文档:https://www.scylladb.com/2019/08/20/best-practices-for-data-modeling/ 转载请注明出处:https: ...

随机推荐

BZOJ3158: 千钧一发
[传送门:BZOJ3158] 简要题意: 给出n个机器,每个机器有a[i]基础值和b[i]价值选出一部分机器使得这些机器里面两两至少满足以下两种条件之一: 1.a[i]2+a[j]2!=T2(T为正 ...
aui-dialog改造，支持关闭
1.打开aui-dialog.js 添加关闭html代码 var headerHtml = params.title ? '<div class="aui-dialog-header ...
【基础篇】activity生命周期及数据保存
常见的Android 的界面,均采用Activity+view的形式显示的,一提到Activity,立即就能联想到Activity的生命周期与状态的保存. 下面先从Activity的生命周期开始说起 ...
线程框架Executor的用法举例
java5线程框架Executor的用法举例 Executor 是 java5 下的一个多任务并发执行框架(Doug Lea),可以建立一个类似数据库连接池的线程池来执行任务.这个框架主要由三个接口和 ...
chown---改变某个文件或目录的所有者和所属的组
chown命令改变某个文件或目录的所有者和所属的组,该命令可以向某个用户授权,使该用户变成指定文件的所有者或者改变文件所属的组.用户可以是用户或者是用户D,用户组可以是组名或组id.文件名可以使由空格 ...
紫书习题 10-22 UVa 10479 (找规律）
自己一直在纠结这个串的构造方法而没有观察串本身的规律-- 2的63次方用 unsigned long long 然后可以发现串是递归构造的. 将串分成1,1,2,4,8,16, 然后会发现s串里面1 ...
QT项目升级(QT4.6.3到QT5.2)时，遇到的问题和解决方法
QT4升级到QT5修改: PC部分: [改QTDIR变量] 在project根文件夹下找到.user文件, 如InnoTabPlugin.vcxproj.user 改动指向你的QT5根文件夹: < ...
php数组合并有哪三种方法
php数组合并有哪三种方法一.总结一句话总结:array_merge():array_merge_recursive():‘+'号 $a = array('color'=>'red',5,6 ...
Vue项目自动转换 px 为 rem，高保真还原设计图
技术栈 vue-cli:使用脚手架工具创建项目. postcss-pxtorem:转换px为rem的插件. 自动设置根节点html的font-size 因为rem单位是相对于根节点的字体大小的,所以通 ...
MyEclipse下怎么配置Maven
这个很简单. 前期博客,请移步: Eclipse下Maven新建项目.自动打依赖jar包(包含普通项目和Web项目) 截图示范:

GraphX 图数据建模和存储

背景

入口

流程

细节

分区摆放

高效数据结构

GraphX 图数据建模和存储的更多相关文章

随机推荐

热门专题