Spark GraphX 属性图操作

package Spark_GraphX

import org.apache.spark.graphx._

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object 属性图 {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setAppName("SimpleGraphX").setMaster("local[4]")

    val sc=new SparkContext(conf)

   //定义顶点

    val users:RDD[(VertexId,(String,String))]=sc.parallelize(Array((3L,("soyo","student")),(7L,("soyo2","postdoc")),(5L,("xiaozhou","professor")),(2L,("xiaocui","professor"))))

    //定义边

    val relationships:RDD[Edge[String]]=sc.parallelize(Array(Edge(3L,7L,"collab"),Edge(5L,3L,"advisor"),Edge(2L,5L,"colleague"),Edge(5L,7L,"parent")))

   //定义默认的作者,以防与不存在的作者有边

    val defaultUser=("Jone","Dance")

    val graph=Graph(users,relationships,defaultUser)

    println("*****************")

    println("找到图中属性是student的点")

    graph.vertices.filter{case (id,(name,occupation))=>occupation=="student"}.collect.foreach{case(id,(name,occupation))=>println(s"$name is $occupation")}

    println("--------------------------")

    println("找到途中边的属性是advisor的边")

    graph.edges.filter(x=>x.attr=="advisor").collect().foreach(x=>println(s"${x.srcId} to ${x.dstId} 属性为 ${x.attr}"))

    println("--------------------------")

    println("找到图中的最大出度,入度,度数")

    println("最大的出度:"+graph.outDegrees.reduce(max))

    println("最大的入度:"+graph.inDegrees.reduce(max))

    println("最大的度数:"+graph.degrees.reduce(max))

    //Scala 可直接调用Java程序

    // System.out.print("hello word")

    //属性操作

    println("------------------------")

    println("给图中每个顶点的职业属性上加上“spark字符串")

    graph.mapVertices{case (id,(name,occupation))=>(id,(name,occupation+"Spark"))}.vertices.collect.foreach(x=>println(s"${x._2._1} is ${x._2._2} : ${x._1} : ${x._2}"))

    println("------------------------")

    println("给途中每个元组的Edge的属性值设置为源顶点属性值+边的属性值+目标定点属性值:")

   graph.mapTriplets(x=>x.srcAttr._2+"+"+x.attr+"+"+x.dstAttr._2).edges.collect().foreach(println)

    //可以证明：属性操作下,图的结构都不受影响.

    graph.mapTriplets(x=>x.srcId+x.dstId).edges.collect().foreach(println)

   //结构操作 :triplets(表示边)

    /*

     reverse操作返回一个所有边方向取反的新图.该反转操作并没有修改图中顶点,边的属性,更没有增加边的数量.

     subgraph操作主要利用顶点和边进行判断,返回的新图中包含满足判断要求的顶点,边.该操作常用于一些情景,比如：限制感兴趣的图顶点和边,删除损坏连接.

     */

    println("------结构操作---------")

    graph.triplets.map(x=>x.srcAttr._1+" is the "+x.attr+" of "+x.dstAttr._1).foreach(println)

    println("-------删除职业是postdoc的节点,构建子图----------")

    val validGraph=graph.subgraph(vpred=(id,attr)=>attr._2!="postdoc")

    validGraph.vertices.foreach(println)

    validGraph.triplets.map(x=>x.srcAttr._1+" is the "+x.attr+" of "+x.dstAttr._1).foreach(println)

    println("----------构建职业是professor的子图,并打印子图的顶点--------")

    val subGraph=graph.subgraph(vpred = (id,attr)=>attr._2=="professor")

    subGraph.vertices.collect().foreach(x=>println(s"${x._2._1} is ${x._2._2}"))

  }

  //VertexId：顶点,Int：度数

  def max(a:(VertexId,Int),b:(VertexId,Int)):(VertexId,Int)={

    if(a._2>b._2)a else b

  }

}

结果：

*****************

找到图中属性是student的点

soyo is student

--------------------------

找到途中边的属性是advisor的边

 to  属性为 advisor

--------------------------

找到图中的最大出度,入度,度数

最大的出度:(,)

最大的入度:(,)

最大的度数:(,)

------------------------

给图中每个顶点的职业属性上加上“spark字符串

 is (xiaozhou,professorSpark) :  : (,(xiaozhou,professorSpark))

 is (xiaocui,professorSpark) :  : (,(xiaocui,professorSpark))

 is (soyo,studentSpark) :  : (,(soyo,studentSpark))

 is (soyo2,postdocSpark) :  : (,(soyo2,postdocSpark))

------------------------

给途中每个元组的Edge的属性值设置为源顶点属性值+边的属性值+目标定点属性值:

Edge(,,student+collab+postdoc)

Edge(,,professor+advisor+student)

Edge(,,professor+colleague+professor)

Edge(,,professor+parent+postdoc)

Edge(,,)

Edge(,,)

Edge(,,)

Edge(,,)

------结构操作---------

xiaozhou is the parent of soyo2

soyo is the collab of soyo2

xiaozhou is the advisor of soyo

xiaocui is the colleague of xiaozhou

-------删除职业是postdoc的节点,构建子图----------

(,(xiaozhou,professor))

(,(xiaocui,professor))

(,(soyo,student))

xiaozhou is the advisor of soyo

xiaocui is the colleague of xiaozhou

----------构建职业是professor的子图,并打印子图的顶点--------

xiaozhou is professor

xiaocui is professor

Spark GraphX 属性图操作的更多相关文章

Spark GraphX宝刀出鞘，图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark实战高手之路】
Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈大数据的概念与应用,正随着智能手机.平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题.图计算正在被广泛地应用于社交 ...
Spark GraphX企业运用
========== Spark GraphX 概述 ==========1.Spark GraphX是什么? (1)Spark GraphX 是 Spark 的一个模块,主要用于进行以图为核心的计 ...
Spark GraphX学习资料
<Spark GraphX 大规模图计算和图挖掘> http://book.51cto.com/art/201408/450049.htm http://www.csdn.net/arti ...
明风：分布式图计算的平台Spark GraphX 在淘宝的实践
快刀初试:Spark GraphX在淘宝的实践作者:明风 (本文由团队中梧苇和我一起撰写,并由团队中的林岳,岩岫,世仪等多人Review,发表于程序员的8月刊,由于篇幅原因,略作删减,本文为完整版) ...
Spark GraphX 聚合操作
package Spark_GraphX import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graph ...
Spark GraphX图计算核心源码分析【图构建器、顶点、边】
一.图构建器 GraphX提供了几种从RDD或磁盘上的顶点和边的集合构建图形的方法.默认情况下,没有图构建器会重新划分图的边:相反,边保留在默认分区中.Graph.groupEdges要求对图进行重新 ...
Spark GraphX图处理编程实例
所构建的图如下: Scala程序代码如下: import org.apache.spark._ import org.apache.spark.graphx._ // To make some of ...
Spark GraphX图计算核心算子实战【AggreagteMessage】
一.简介参考博客:https://www.cnblogs.com/yszd/p/10186556.html 二.代码实现 package graphx import org.apache.log4j ...
Spark GraphX图计算简单案例【代码实现，源码分析】
一.简介参考:https://www.cnblogs.com/yszd/p/10186556.html 二.代码实现 package big.data.analyse.graphx import o ...

随机推荐

virtualenvwrapper.sh: There was a problem running the initialization hooks. If Python could not import the module virtualenvwrapper.hook_loader, check that virtualenvwrapper.........（解决办法）
Linux(ubuntu)上python2与python3共存环境下,安装virtualenvwrapper后, 其环境变量被自动设置为VIRTUALENVWRAPPER_PYTHON=/usr/bi ...
POJ 2718 Smallest Difference(贪心 or next_permutation暴力枚举)
Smallest Difference Description Given a number of distinct decimal digits, you can form one integer ...
看板娘 & 二次元 & live2d
live2d https://l2dwidget.js.org/dev.html https://github.com/xiazeyu/live2d-widget.js 看板娘要切换看板娘吗? ht ...
Automation 的 ReportFlow
ReportFlow: // click the Grid icon and switch to grid page public void changeToGrid() // click the A ...
[luoguP3402] 最长公共子序列（DP + 离散化 + 树状数组）
传送门比 P1439 排列LCS问题,难那么一点点,只不过有的元素不是两个串都有,还有数据范围变大,树状数组得打离散化. 不过如果用栈+二分的话还是一样的. ——代码 #include <cs ...
codevs3728 联合权值
题目描述 Description 输入描述 Input Description 输出描述 Output Description 样例输入 Sample Input 样例输出 Sample Output ...
Xterm256终端颜色的名称
hi x016_Grey0 ctermfg=16 guifg=#000000 "rgb=0,0,0 hi x017_NavyBlue ctermfg=17 guifg=#00005f &qu ...
DNS域名服务器配置
========================DNS域名服务器===================== 1)bind安装: yum -y install bind* ............... ...
BZOJ——2190: [SDOI2008]仪仗队
思路: 我们将其所在的位置设为(0,0),那么如果存在一个点(x,y),且有gcd(x,y)=k(k!=1),那么点(x/k,y/k)一定会将(x,y)挡住.而如果k=1,那么点(x,y)就一定会被看 ...
NYOJ 题目42 一笔画问题（欧拉图）
一笔画问题时间限制:3000 ms | 内存限制:65535 KB 难度:4 描写叙述 zyc从小就比較喜欢玩一些小游戏.当中就包含画一笔画.他想请你帮他写一个程序.推断一个图是否可以用一笔画下 ...

Spark GraphX 属性图操作

Spark GraphX 属性图操作的更多相关文章

随机推荐

热门专题