2014-09-29 13:04 2339人阅读 评论(0) 收藏 举报
 分类:

Spark(8) 

版权声明:本文为博主原创文章,未经博主允许不得转载。

Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。Spark GraphX由于底层是基于Spark来处理的,所以天然就是一个分布式的图处理系统。图的分布式或者并行处理其实是把这张图拆分成很多的子图,然后我们分别对这些子图进行计算,计算的时候可以分别迭代进行分阶段的计算,即对图进行并行计算。

Spark GraphX基本操作:

[plain] view plain copy
  1. import org.apache.spark.SparkContext
  2. import org.apache.spark._
  3. import org.apache.spark.graphx._
  4. import org.apache.spark.graphx.Graph
  5. import org.apache.spark.graphx.Edge
  6. import org.apache.spark.graphx.VertexRDD
  7. import org.apache.spark.graphx.util.GraphGenerators
  8. import org.apache.spark.graphx.GraphLoader
  9. import org.apache.spark.storage.StorageLevel
  10. import org.apache.spark.rdd.RDD
  11. object SparkGraphx1 {
  12. def main(args: Array[String]) {
  13. val sc = new SparkContext("spark://centos.host1:7077", "Spark Graphx")
  14. //创建点RDD
  15. val users: RDD[(VertexId, (String, String))] = sc.parallelize(Array(
  16. (3L, ("rxin", "student")), (7L, ("jgonzal", "postdoc")),
  17. (5L, ("franklin", "prof")), (2L, ("istoica", "prof"))))
  18. //创建边RDD
  19. val relationships: RDD[Edge[String]] = sc.parallelize(Array(
  20. Edge(3L, 7L, "collab"), Edge(5L, 3L, "advisor"),
  21. Edge(2L, 5L, "colleague"), Edge(5L, 7L, "pi")))
  22. //定义一个默认用户,避免有不存在用户的关系
  23. val defaultUser = ("John Doe", "Missing")
  24. //构造Graph
  25. val graph = Graph(users, relationships, defaultUser)
  26. //点RDD、边RDD过滤
  27. val fcount1 = graph.vertices.filter { case (id, (name, pos)) => pos == "postdoc" }.count
  28. println("postdocs users count: " + fcount1)
  29. val fcount2 = graph.edges.filter(edge => edge.srcId > edge.dstId).count
  30. println("srcId > dstId edges count: " + fcount2)
  31. val fcount3 = graph.edges.filter { case Edge(src, dst, prop) => src > dst }.count
  32. println("srcId > dstId edges count: " + fcount3)
  33. //Triplets(三元组),包含源点、源点属性、目标点、目标点属性、边属性
  34. val triplets: RDD[String] = graph.triplets.map(triplet => triplet.srcId + "-" +
  35. triplet.srcAttr._1 + "-" + triplet.attr + "-" + triplet.dstId + "-" + triplet.dstAttr._1)
  36. triplets.collect().foreach(println(_))
  37. //度、入度、出度
  38. val degrees: VertexRDD[Int] = graph.degrees;
  39. degrees.collect().foreach(println)
  40. val inDegrees: VertexRDD[Int] = graph.inDegrees
  41. inDegrees.collect().foreach(println)
  42. val outDegrees: VertexRDD[Int] = graph.outDegrees
  43. outDegrees.collect().foreach(println)
  44. //构建子图
  45. val subGraph = graph.subgraph(vpred = (id, attr) => attr._2 != "Missing")
  46. subGraph.vertices.collect().foreach(println(_))
  47. subGraph.triplets.map(triplet => triplet.srcAttr._1 + " is the " + triplet.attr + " of " + triplet.dstAttr._1)
  48. .collect().foreach(println(_))
  49. //Map操作,根据原图的一些特性得到新图,原图结构是不变的,下面两个逻辑是等价的,但是第一个不会被graphx系统优化
  50. val newVertices = graph.vertices.map { case (id, attr) => (id, (attr._1 + "-1", attr._2 + "-2")) }
  51. val newGraph1 = Graph(newVertices, graph.edges)
  52. val newGraph2 = graph.mapVertices((id, attr) => (id, (attr._1 + "-1", attr._2 + "-2")))
  53. //构造一个新图,顶点属性是出度
  54. val inputGraph: Graph[Int, String] =
  55. graph.outerJoinVertices(graph.outDegrees)((vid, _, degOpt) => degOpt.getOrElse(0))
  56. //根据顶点属性为出度的图构造一个新图,依据PageRank算法初始化边与点
  57. val outputGraph: Graph[Double, Double] =
  58. inputGraph.mapTriplets(triplet => 1.0 / triplet.srcAttr).mapVertices((id, _) => 1.0)
  59. //图的反向操作,新的图形的所有边的方向相反,不修改顶点或边性属性、不改变的边的数目,它可以有效地实现不必要的数据移动或复制
  60. var rGraph = graph.reverse
  61. //Mask操作也是根据输入图构造一个新图,达到一个限制制约的效果
  62. val ccGraph = graph.connectedComponents()
  63. val validGraph = graph.subgraph(vpred = (id, attr) => attr._2 != "Missing")
  64. val validCCGraph = ccGraph.mask(validGraph)
  65. //Join操作,原图外连出度点构造一个新图  ,出度为顶点属性
  66. val degreeGraph2 = graph.outerJoinVertices(outDegrees) { (id, attr, outDegreeOpt) =>
  67. outDegreeOpt match {
  68. case Some(outDeg) => outDeg
  69. case None => 0 //没有出度标识为零
  70. }
  71. }
  72. //缓存。默认情况下,缓存在内存的图会在内存紧张的时候被强制清理,采用的是LRU算法
  73. graph.cache()
  74. graph.persist(StorageLevel.MEMORY_ONLY)
  75. graph.unpersistVertices(true)
  76. //GraphLoader构建Graph
  77. var path = "/user/hadoop/data/temp/graph/graph.txt"
  78. var minEdgePartitions = 1
  79. var canonicalOrientation = false // if sourceId < destId this value is true
  80. val graph1 = GraphLoader.edgeListFile(sc, path, canonicalOrientation, minEdgePartitions,
  81. StorageLevel.MEMORY_ONLY, StorageLevel.MEMORY_ONLY)
  82. val verticesCount = graph1.vertices.count
  83. println(s"verticesCount: $verticesCount")
  84. graph1.vertices.collect().foreach(println)
  85. val edgesCount = graph1.edges.count
  86. println(s"edgesCount: $edgesCount")
  87. graph1.edges.collect().foreach(println)
  88. //PageRank
  89. val pageRankGraph = graph1.pageRank(0.001)
  90. pageRankGraph.vertices.sortBy(_._2, false).saveAsTextFile("/user/hadoop/data/temp/graph/graph.pr")
  91. pageRankGraph.vertices.top(5)(Ordering.by(_._2)).foreach(println)
  92. //Connected Components
  93. val connectedComponentsGraph = graph1.connectedComponents()
  94. connectedComponentsGraph.vertices.sortBy(_._2, false).saveAsTextFile("/user/hadoop/data/temp/graph/graph.cc")
  95. connectedComponentsGraph.vertices.top(5)(Ordering.by(_._2)).foreach(println)
  96. //TriangleCount主要用途之一是用于社区发现 保持sourceId小于destId
  97. val graph2 = GraphLoader.edgeListFile(sc, path, true)
  98. val triangleCountGraph = graph2.triangleCount()
  99. triangleCountGraph.vertices.sortBy(_._2, false).saveAsTextFile("/user/hadoop/data/temp/graph/graph.tc")
  100. triangleCountGraph.vertices.top(5)(Ordering.by(_._2)).foreach(println)
  101. sc.stop()
  102. }
  103. }  

Spark学习笔记-GraphX-1的更多相关文章

  1. Spark学习笔记--Graphx

    浅谈Graphx: http://blog.csdn.net/shangwen_/article/details/38645601 Pregel: http://blog.csdn.net/shang ...

  2. spark学习笔记总结-spark入门资料精化

    Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...

  3. Spark学习笔记0——简单了解和技术架构

    目录 Spark学习笔记0--简单了解和技术架构 什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器 受 ...

  4. Spark学习笔记之SparkRDD

    Spark学习笔记之SparkRDD 一.   基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ①   内存集合和外部存储系统 ②   ...

  5. Spark学习笔记2(spark所需环境配置

    Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求 不需要最新版的maven客户端. 解压完成之后 ...

  6. Spark学习笔记3(IDEA编写scala代码并打包上传集群运行)

    Spark学习笔记3 IDEA编写scala代码并打包上传集群运行 我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包 上传至集群,来检验一下我们的sp ...

  7. Spark学习笔记3——RDD(下)

    目录 Spark学习笔记3--RDD(下) 向Spark传递函数 通过匿名内部类 通过具名类传递 通过带参数的 Java 函数类传递 通过 lambda 表达式传递(仅限于 Java 8 及以上) 常 ...

  8. Spark学习笔记2——RDD(上)

    目录 Spark学习笔记2--RDD(上) RDD是什么? 例子 创建 RDD 并行化方式 读取外部数据集方式 RDD 操作 转化操作 行动操作 惰性求值 Spark学习笔记2--RDD(上) 笔记摘 ...

  9. Spark学习笔记1——第一个Spark程序:单词数统计

    Spark学习笔记1--第一个Spark程序:单词数统计 笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖 通过 Maven 添加 Spark-c ...

随机推荐

  1. cloudstack4.11+KVM+4网卡bond5+briage 交换机不作配置

    网卡绑定配置 # cat ifcfg-em1TYPE=EthernetBOOTPROTO=noneDEVICE=em1ONBOOT=yesMASTER=bond0SLAVE=yes# cat ifcf ...

  2. python数据分析之matplotlib学习

    本文作为学习过程中对matplotlib一些常用知识点的整理,方便查找. 类MATLAB API 最简单的入门是从类 MATLAB API 开始,它被设计成兼容 MATLAB 绘图函数. from p ...

  3. java中替换${xx}

    import java.util.regex.Matcher; import java.util.regex.Pattern; public class replace { public static ...

  4. 8. String to Integer (整数的溢出)

    Implement atoi to convert a string to an integer. If no valid conversion could be performed, a zero ...

  5. Mac快捷键大全

    Android Studio command+option+L:格式化代码 Visual Studio Code option+shift+f:格式化代码 先按command+k,再按command+ ...

  6. 多线程通信(wait和notify)

    线程通信概念: 线程是操作系统中独立的个体,但这些个体如果不经过特殊的处理就不能成为一个整体,线程间的通信就成为整体的必用方式之一.当线程存在通信指挥,系统间的交互性会更强大,在提高CPU利用率的同时 ...

  7. vue项目引入FastClick组件解决IOS系统下h5页面中的按钮点击延迟,连续点击无反应的问题

    异常描述: ios系统手机中访问h5页面,按钮点击有延迟,连续点击卡顿.无反应. 异常原因: 这要追溯至 2007 年初.苹果公司在发布首款 iPhone 前夕,遇到一个问题:当时的网站都是为大屏幕设 ...

  8. 安装vCenter server 6.0

    注意,5.5的还可以直接把iso里的ova直接导入为模板,6.0之后的要拉到Windows下安装. 总路线 ESXI是服务器系统,用vsphere client连接,在client里新建一个虚拟机为W ...

  9. TZOJ 3209 后序遍历(已知中序前序求后序)

    描述 在数据结构中,遍历是二叉树最重要的操作之一.所谓遍历(Traversal)是指沿着某条搜索路线,依次对树中每个结点均做一次且仅做一次访问. 这里给出三种遍历算法. 1.中序遍历的递归算法定义:  ...

  10. mysql中的 随机字符串的生成

    方法1. SELECT SUBSTRING(MD5(RAND()),FLOOR(RAND()*26)+1,6) AS rand_str; 上诉示例产生的是:6位长度的随机字符串. 函数解释: rand ...