Giraph源代码分析（六）—

HamaWhite 原创，转载请注明出处。欢迎大家增加Giraph
技术交流群： 228591158

欢迎訪问：西北工业大学 - 大数据与知识管理研究室（Northwestern Polytechnical University - BigData and Knowledge Management Lab），链接：http://wowbigdata.cn/。http://wowbigdata.net.cn/。http://wowbigdata.com.cn。

1. 在Vertex类中，顶点的存储方式採用邻接表形式。每一个顶点有 VertexId、VertexValue、OutgoingEdges和Halt，boolean型的halt变量用于记录顶点的状态，false时表示active，true表示inactive状态。片段代码例如以下：

/** Vertex id. */

  private I id;

  /** Vertex value. */

  private V value;

  /** Outgoing edges. */

  private OutEdges<I, E> edges;

  /** If true, do not do anymore computation on this vertex. */

  private boolean halt;

  /** Global graph state **/

  private GraphState<I, V, E, M> graphState;

2 org.apache.giraph.edge.Edge 接口，用于存储顶点的边。每条边包括targetVertexId和edgeValue两个属性。类关系图例如以下：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGluX2ptYWls/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

Giraph默认使用DefaultEdge类存储边，该类中有两个变量： I targetVertexId和 E value。I为顶点ID的类型。E为边的类型。注意。DefaultEdge类同一时候继承ReusableEdge<I,E>接口。在ReusableEdge<I,E>类的定义中，有例如以下说明文字：

A complete edge, the target vertex and the edge value. Can only be one edge with a destination vertex id per edge map. This edge can be reused, that is you can set it's target vertex ID and edge value.
Note: this class is useful for certain optimizations, but it's not meant to be exposed to the user. Look at MutableEdge instead.

从上述说明文字可知，edge能够被重用，仅仅须要改动targetVertexId和value的值即可。即每一个Vertex若有多条出边。仅仅会创建一个DefaultEdge对象来存储边。

3. org.apache.giraph.edge.OutEdges<I,E> 用于存储每一个顶点的out-edges。从Vertex类的定义可知，顶点的每条边都被存储在OutEdges<I,E>类型的edge对象中。OutEdges<I,E>接口的关系图例如以下：

Giraph默认的使用ByteArrayEdges<I,E>，每一个顶点的全部边都被存储在byte[ ]中。当顶点向它的出边发送消息时，须要遍历Vertex类中的edges对象。

演示样例代码例如以下：

//遍历全部的边。getEdges()返回的是Vertex中的edges对象，

//那么该for循环会调用edges对象的iterator()方法，即调用ByteArrayEdges类中的iterator方法。

for (Edge<LongWritable, FloatWritable> edge : getEdges()) {

	//edge对象表示每条边。默觉得DefaultEdge类型。

double distance = minDist + edge.getValue().get();

    sendMessage(edge.getTargetVertexId(), new DoubleWritable(distance));

}

注意：由DefaultEdge的定义可知，遍历getEdges时，返回的Edge对象时同一个对象。仅仅是该对象中值改变了。

以下继续查看代码来证明此观点。

查看ByteArrayEdges类的iterator()方法，例如以下。

 @Override

  public Iterator<Edge<I, E>> iterator() {

    return new ByteArrayEdgeIterator();

  }

返回的是内部类ByteArrayEdgeIterator对象。定义例如以下：

 /**

   * Iterator that reuses the same Edge object.

   */

  private class ByteArrayEdgeIterator

      extends UnmodifiableIterator<Edge<I, E>> {

	 //extendedDataInput存储全部Edge边相应的字节

    /** Input for processing the bytes */

    private ExtendedDataInput extendedDataInput =

        getConf().createExtendedDataInput(

            serializedEdges, 0, serializedEdgesBytesUsed);

	//创建一个Edge对象，默认返回的是DefaultEdge对象。

/** Representative edge object. */

    private ReusableEdge<I, E> representativeEdge =

        getConf().createReusableEdge();

    @Override

    public boolean hasNext() {

      return serializedEdges != null && extendedDataInput.available() > 0;

    }

    @Override

    public Edge<I, E> next() {

      try {

	    //核心：此处遍历每条Edge时，都是从extendedDataInput读入每天边的数据存储在representativeEdge对象中。

		//从此处就可知，每一个顶点的全部出边仅仅有一个Edge对象， 遍历时改动每条边的数据的就可以

        WritableUtils.readEdge(extendedDataInput, representativeEdge);

      } catch (IOException e) {

        throw new IllegalStateException("next: Failed on pos " +

            extendedDataInput.getPos() + " edge " + representativeEdge);

      }

      return representativeEdg

	}

  }

总结：当顶点的出度非常大时，此优化甚好，能非常好的节约内存。如UK-2005数据中，顶点的最大出度为 5213。

如果顶点1的出度顶点有<2 , 0.4>。<3 , 7.8> ，<5 , 6.4> 。

例如以下代码：

//定义list列表用于存储出度顶点的Id。

List<LongWritable> list=new ArrayList<LongWritable>();

for (Edge<LongWritable, FloatWritable> edge : getEdges()) {

	list.add(edge.getTargetVertexId());

	System.out.println(list);

}

输出结果为：

[ 2 ]

[ 3 , 3 ]

[ 5 , 5 , 5 ]

并不是是希望的 [ 2 , 3 , 5 ]

完。

本人原创，转载请注明出处！

本人QQ：530422429。欢迎大家指正、讨论。

Giraph源代码分析（六）——Edge 分析的更多相关文章

x264源代码简单分析：宏块分析（Analysis）部分-帧间宏块（Inter）
===================================================== H.264源代码分析文章列表: [编码 - x264] x264源代码简单分析:概述 x26 ...
x264源代码简单分析：宏块分析（Analysis）部分-帧内宏块（Intra）
===================================================== H.264源代码分析文章列表: [编码 - x264] x264源代码简单分析:概述 x26 ...
手机自动化测试：Appium源码分析之跟踪代码分析六
手机自动化测试:Appium源码分析之跟踪代码分析六 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.poptest推出手机自 ...
实验六：分析linux内核创建一个新进程的过程
实验六:分析Linux内核创建一个新进程的过程作者:王朝宪 <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029 ...
编译原理（六）自底向上分析之LR分析法
自底向上分析之LR分析法说明:以老师PPT为标准,借鉴部分教材内容,AlvinZH学习笔记. 基本概念 1. LR分析:从左到右扫描(L)自底向上进行规约(R),是规范规约,也即最右推导(规范推导) ...
常用 Java 静态代码分析工具的分析与比较
常用 Java 静态代码分析工具的分析与比较简介: 本文首先介绍了静态代码分析的基本概念及主要技术,随后分别介绍了现有 4 种主流 Java 静态代码分析工具 (Checkstyle,FindBu ...
[转载] 常用 Java 静态代码分析工具的分析与比较
转载自http://www.oschina.net/question/129540_23043 简介: 本文首先介绍了静态代码分析的基本概念及主要技术,随后分别介绍了现有 4 种主流 Java 静态代 ...
⑥NuPlayer播放源码分析之DecoderBase分析
NuPlayer播放源码分析之DecoderBase分析 [时间:2017-02] [状态:Open] [关键词:android,nuplayer,开源播放器,播放框架,DecoderBase,Med ...
【转载】常用 Java 静态代码分析工具的分析与比较
摘自:http://www.oschina.net/question/129540_23043常用 Java 静态代码分析工具的分析与比较简介: 本文首先介绍了静态代码分析的基本概念及主要技术,随后 ...
linux内核中socket的创建过程源码分析（详细分析）
1三个相关数据结构. 关于socket的创建,首先需要分析socket这个结构体,这是整个的核心. 104 struct socket { 105 socket_state ...

随机推荐

[Angular & Unit Testing] TestBed.get vs Injector
Both what "TestBed.get" & "injector" trying to do is get service for the tes ...
shell date 命令说明
shell date 命令说明使用方法:date [选项]... [+格式] 或:date [-u|--utc|--universal] [MMDDhhmm[[CC]YY][.ss]] 以给定的格式 ...
Android Support 包里到底有什么
大家假设喜欢我的博客,请关注一下我的微博,请点击这里(http://weibo.com/kifile),谢谢转载请标明出处(http://blog.csdn.net/kifile),再次感谢随着 ...
lightSlider 好图片轮播插件支持移动端
http://jquery-plugins.net/jquery-lightslider-lightweight-responsive-content-slider https://github.co ...
Linux下SPI读写外部寄存器的操作
SPI写寄存器操作: staticvoid mcp251x_write_reg(struct spi_device *spi, uint8_t reg, uint8_t val) { stru ...
js中event事件处理
1. HTML事件直接添加到HTML结构中 function show() { alert('hello'); } <body> <button id="btn&quo ...
【Uva 11080】Place the Guards
[Link]: [Description] 一些城市,之间有道路相连,现在要安放警卫,警卫能看守到当前点周围的边,一条边只能有一个警卫看守,问是否有方案,如果有最少放几个警卫. [Solution] ...
PHP版本 D-Link 动态域名客户端
<?php /* * D-Link 动态域名客户端.主域名www.dlinkddns.com 和 www.dlinkddns.com.cn * 首先获取外网IP,若IP没有变化,则结束运行:否则 ...
使用dotcloud免费ssh
使用dotcloud免费ssh https://www.dotcloud.com一个项目在线托管网站,注册后可以免费托管两个项目. 注册帐号,在ubuntu中执行下面命令,安装dotcloud环境 s ...
.net core 分布式性能计数器的实现
1.特别鸣谢张善友老师的指点; 2.分布式性能计数器链接地址:https://mp.weixin.qq.com/s/hPV_bNZD4XmjP0QTE54pWA

Giraph源代码分析（六）——Edge 分析

Giraph源代码分析（六）——Edge 分析的更多相关文章

随机推荐

热门专题