Spark GraphX是一个分布式的图处理框架。社交网络中，用户与用户之间会存在错综复杂的联系，如微信、QQ、微博的用户之间的好友、关注等关系，构成了一张巨大的图，单机无法处理，只能使用分布式图处理框架处理，Spark GraphX就是一种分布式图处理框架。

1. POM文件

在项目的pom文件中加上Spark GraphX的包：

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-graphx_2.10</artifactId>

            <version>1.6.0</version>

        </dependency>

2. 设置运行环境

    // 设置运行环境

    val conf = new SparkConf().setAppName("Simple GraphX").setMaster("spark://master:7077").setJars(Seq("E:\\Intellij\\Projects\\SimpleGraphX\\SimpleGraphX.jar"))

    val sc = new SparkContext(conf)

3. 图的构造

图是由若干顶点和边构成的，Spark GraphX里面的图也是一样的，所以在初始图之前，先要定义若干的顶点和边：

    // 顶点

    val vertexArray = Array(

      (1L,("Alice", 38)),

      (2L,("Henry", 27)),

      (3L,("Charlie", 55)),

      (4L,("Peter", 32)),

      (5L,("Mike", 35)),

      (6L,("Kate", 23))

    )

    // 边

    val edgeArray = Array(

      Edge(2L, 1L, 5),

      Edge(2L, 4L, 2),

      Edge(3L, 2L, 7),

      Edge(3L, 6L, 3),

      Edge(4L, 1L, 1),

      Edge(5L, 2L, 3),

      Edge(5L, 3L, 8),

      Edge(5L, 6L, 8)

    )

然后再利用点和边生成各自的RDD：

    //构造vertexRDD和edgeRDD

    val vertexRDD:RDD[(Long,(String,Int))] = sc.parallelize(vertexArray)

    val edgeRDD:RDD[Edge[Int]] = sc.parallelize(edgeArray)

最后利用两个RDD生成图：

    // 构造图

    val graph:Graph[(String,Int),Int] = Graph(vertexRDD, edgeRDD)

4. 图的属性操作

Spark GraphX图的属性包括：

(1) Graph.vertices：图中的所有顶点；

(2) Graph.edges：图中所有的边；

(3) Graph.triplets：由三部分组成，源顶点，目的顶点，以及两个顶点之间的边；

(4) Graph.degrees：图中所有顶点的度；

(5) Graph.inDegrees：图中所有顶点的入度；

(6) Graph.outDegrees：图中所有顶点的出度；

对这些属性的操作，直接上代码：

    //图的属性操作

    println("*************************************************************")

    println("属性演示")

    println("*************************************************************")

    // 方法一

    println("找出图中年龄大于20的顶点方法之一:")

    graph.vertices.filter{case(id,(name,age)) => age>20}.collect.foreach {

      case(id,(name,age)) => println(s"$name is $age")

    }

    // 方法二

    println("找出图中年龄大于20的顶点方法之二:")

    graph.vertices.filter(v => v._2._2>20).collect.foreach {

      v => println(s"${v._2._1} is ${v._2._2}")

    }

    // 边的操作

    println("找出图中属性大于3的边:")

    graph.edges.filter(e => e.attr>3).collect.foreach(e => println(s"${e.srcId} to ${e.dstId} att ${e.attr}"))

    println

    // Triplet操作

    println("列出所有的Triples:")

    for(triplet <- graph.triplets.collect){

      println(s"${triplet.srcAttr._1} likes ${triplet.dstAttr._1}")

    }

    println

    println("列出边属性>3的Triples:")

    for(triplet <- graph.triplets.filter(t => t.attr > 3).collect){

      println(s"${triplet.srcAttr._1} likes ${triplet.dstAttr._1}")

    }

    println

    // Degree操作

    println("找出图中最大的出度,入度,度数:")

    def max(a:(VertexId,Int), b:(VertexId,Int)):(VertexId,Int) = {

      if (a._2>b._2) a else b

    }

    println("Max of OutDegrees:" + graph.outDegrees.reduce(max))

    println("Max of InDegrees:" + graph.inDegrees.reduce(max))

    println("Max of Degrees:" + graph.degrees.reduce(max))

    println

运行结果：

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties

17/05/22 20:45:35 INFO Slf4jLogger: Slf4jLogger started

17/05/22 20:45:35 INFO Remoting: Starting remoting

17/05/22 20:45:35 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriverActorSystem@192.168.1.101:53375]

*************************************************************

属性演示

*************************************************************

找出图中年龄大于20的顶点方法之一:

Peter is 32

Alice is 38

Charlie is 55

Mike is 35

找出图中年龄大于20的顶点方法之二:

Peter is 32

Alice is 38

Charlie is 55

Mike is 35

找出图中属性大于3的边:

3 to 2 att 7

5 to 3 att 8

5 to 6 att 8

列出所有的Triples:

Henry likes Alice

Henry likes Peter

Charlie likes Henry

Charlie likes Kate

Peter likes Alice

Mike likes Henry

Mike likes Charlie

Mike likes Kate

列出边属性>3的Triples:

Charlie likes Henry

Mike likes Charlie

Mike likes Kate

找出图中最大的出度,入度,度数:

Max of OutDegrees:(5,3)

Max of InDegrees:(1,2)

Max of Degrees:(2,4)

Spark GraphX实例(1)的更多相关文章

Spark GraphX实例(3)
7. 图的聚合操作图的聚合操作主要的方法有: (1) Graph.mapReduceTriplets():该方法有一个mapFunc和一个reduceFunc,mapFunc对图中的每一个EdgeT ...
Spark GraphX实例(2)
5. 图的转换操作图的转换操作主要有以下的方法: (1) Graph.mapVertices():对图的顶点进行转换,返回一张新图: (2) Graph.mapEdges():对图的边进行转换,返回 ...
大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例
第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式 ...
Spark GraphX图处理编程实例
所构建的图如下: Scala程序代码如下: import org.apache.spark._ import org.apache.spark.graphx._ // To make some of ...
1. Spark GraphX概述
1.1 什么是Spark GraphX Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求.那么什么是图 ...
转载：Spark GraphX详解
1.GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求. ...
Spark GraphX从入门到实战
第1章 Spark GraphX 概述 1.1 什么是 Spark GraphX Spark GraphX 是一个分布式图处理框架,它是基于 Spark 平台提供对图计算和图挖掘简洁易用的而丰 ...
Spark + GraphX + Pregel
Spark+GraphX图 Q:什么是图?图的应用场景 A:图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构,表示为二元组:Gragh=(V,E),V\E分别是顶点 ...
Spark—GraphX编程指南
Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)--数据倾斜调优 Spark面试题(六)--Spark资源调 ...

随机推荐

Unity 动画知识之一
Unity现在已经用的很广泛啦,可是却一直没有什么美术向的教程. 程序用方面的内容在各个论坛都有讨论,但是美术似乎很弱势啊. 明明美术也很需要掌握引擎方面的内容嘛! 山谷里的野百合还有春天呢我们美术 ...
Java移位运算符详解实例——左移位运算符>>、带符号的右移位运算符>>
移位运算符也针对二进制的“位”,它主要包括:左移位运算符(<<).右移位运算符(>>>).带符号的右移位运算符(>>). 1．左移运算符左移运算符用“< ...
SharePoint 修改项目的new图标显示天数
前言最近有这么个需求,用户需要修改新建项目前面的new图标的显示天数,查了很久,发现有powershell命令或者stsadm命令可以,分享给大家. PowerShell命令 $wa = Get-S ...
spring boot 之@JsonView 简单介绍
@JsonView是jackson json中的一个注解,spring webmvc也支持这个注解. 这个注解的作用就是控制输入输出后的json. 假设我们有一个用户类,其中包含用户名和密码,一般情况 ...
《Web性能权威指南》
<Web性能权威指南> 基本信息原书名:High performance browser networking 原出版社: O'Reilly Media 作者: (加)Ilya Grig ...
Java获取当前时间30天之前的时间
//方法一 SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd"); String maxDateStr = " ...
Minikube体验
本文的环境如下: 操作系统: Mac OSX EI Caption Docker:Docker version 18.03.1-ce, build 9ee9f40 Minikube:minikube ...
poj 2348 Euclid's Game 题解
Euclid's Game Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 9023 Accepted: 3691 Des ...
boost并发编程boost：：atomic
三个用于并发编程的组件: atomic,thread,asio(用于同步和异步io操作) atomic atomic,封装了不同计算机硬件的底层操作原语,提供了跨平台的原子操作功能,解决并发竞争读 ...
如何确定HyperThreading是否在Linux上已开启？
命令如下: dmidecode -t processor | grep HTT 参考资料 ============= https://unix.stackexchange.com/questions/ ...