Spark学习笔记-GraphX-1

2014-09-29 13:04 2339人阅读评论(0) 收藏举报

分类：

Spark（8）

Spark GraphX是一个分布式图处理框架，Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口，极大的方便了大家对分布式图处理的需求。Spark GraphX由于底层是基于Spark来处理的，所以天然就是一个分布式的图处理系统。图的分布式或者并行处理其实是把这张图拆分成很多的子图，然后我们分别对这些子图进行计算，计算的时候可以分别迭代进行分阶段的计算，即对图进行并行计算。

Spark GraphX基本操作：

[plain] view plain copy

import org.apache.spark.SparkContext
import org.apache.spark._
import org.apache.spark.graphx._
import org.apache.spark.graphx.Graph
import org.apache.spark.graphx.Edge
import org.apache.spark.graphx.VertexRDD
import org.apache.spark.graphx.util.GraphGenerators
import org.apache.spark.graphx.GraphLoader
import org.apache.spark.storage.StorageLevel
import org.apache.spark.rdd.RDD
object SparkGraphx1 {
def main(args: Array[String]) {
val sc = new SparkContext("spark://centos.host1:7077", "Spark Graphx")
//创建点RDD
val users: RDD[(VertexId, (String, String))] = sc.parallelize(Array(
(3L, ("rxin", "student")), (7L, ("jgonzal", "postdoc")),
(5L, ("franklin", "prof")), (2L, ("istoica", "prof"))))
//创建边RDD
val relationships: RDD[Edge[String]] = sc.parallelize(Array(
Edge(3L, 7L, "collab"), Edge(5L, 3L, "advisor"),
Edge(2L, 5L, "colleague"), Edge(5L, 7L, "pi")))
//定义一个默认用户，避免有不存在用户的关系
val defaultUser = ("John Doe", "Missing")
//构造Graph
val graph = Graph(users, relationships, defaultUser)
//点RDD、边RDD过滤
val fcount1 = graph.vertices.filter { case (id, (name, pos)) => pos == "postdoc" }.count
println("postdocs users count: " + fcount1)
val fcount2 = graph.edges.filter(edge => edge.srcId > edge.dstId).count
println("srcId > dstId edges count: " + fcount2)
val fcount3 = graph.edges.filter { case Edge(src, dst, prop) => src > dst }.count
println("srcId > dstId edges count: " + fcount3)
//Triplets(三元组)，包含源点、源点属性、目标点、目标点属性、边属性
val triplets: RDD[String] = graph.triplets.map(triplet => triplet.srcId + "-" +
triplet.srcAttr._1 + "-" + triplet.attr + "-" + triplet.dstId + "-" + triplet.dstAttr._1)
triplets.collect().foreach(println(_))
//度、入度、出度
val degrees: VertexRDD[Int] = graph.degrees;
degrees.collect().foreach(println)
val inDegrees: VertexRDD[Int] = graph.inDegrees
inDegrees.collect().foreach(println)
val outDegrees: VertexRDD[Int] = graph.outDegrees
outDegrees.collect().foreach(println)
//构建子图
val subGraph = graph.subgraph(vpred = (id, attr) => attr._2 != "Missing")
subGraph.vertices.collect().foreach(println(_))
subGraph.triplets.map(triplet => triplet.srcAttr._1 + " is the " + triplet.attr + " of " + triplet.dstAttr._1)
.collect().foreach(println(_))
//Map操作，根据原图的一些特性得到新图，原图结构是不变的，下面两个逻辑是等价的，但是第一个不会被graphx系统优化
val newVertices = graph.vertices.map { case (id, attr) => (id, (attr._1 + "-1", attr._2 + "-2")) }
val newGraph1 = Graph(newVertices, graph.edges)
val newGraph2 = graph.mapVertices((id, attr) => (id, (attr._1 + "-1", attr._2 + "-2")))
//构造一个新图，顶点属性是出度
val inputGraph: Graph[Int, String] =
graph.outerJoinVertices(graph.outDegrees)((vid, _, degOpt) => degOpt.getOrElse(0))
//根据顶点属性为出度的图构造一个新图，依据PageRank算法初始化边与点
val outputGraph: Graph[Double, Double] =
inputGraph.mapTriplets(triplet => 1.0 / triplet.srcAttr).mapVertices((id, _) => 1.0)
//图的反向操作，新的图形的所有边的方向相反，不修改顶点或边性属性、不改变的边的数目，它可以有效地实现不必要的数据移动或复制
var rGraph = graph.reverse
//Mask操作也是根据输入图构造一个新图，达到一个限制制约的效果
val ccGraph = graph.connectedComponents()
val validGraph = graph.subgraph(vpred = (id, attr) => attr._2 != "Missing")
val validCCGraph = ccGraph.mask(validGraph)
//Join操作，原图外连出度点构造一个新图，出度为顶点属性
val degreeGraph2 = graph.outerJoinVertices(outDegrees) { (id, attr, outDegreeOpt) =>
outDegreeOpt match {
case Some(outDeg) => outDeg
case None => 0 //没有出度标识为零
}
}
//缓存。默认情况下,缓存在内存的图会在内存紧张的时候被强制清理，采用的是LRU算法
graph.cache()
graph.persist(StorageLevel.MEMORY_ONLY)
graph.unpersistVertices(true)
//GraphLoader构建Graph
var path = "/user/hadoop/data/temp/graph/graph.txt"
var minEdgePartitions = 1
var canonicalOrientation = false // if sourceId < destId this value is true
val graph1 = GraphLoader.edgeListFile(sc, path, canonicalOrientation, minEdgePartitions,
StorageLevel.MEMORY_ONLY, StorageLevel.MEMORY_ONLY)
val verticesCount = graph1.vertices.count
println(s"verticesCount: $verticesCount")
graph1.vertices.collect().foreach(println)
val edgesCount = graph1.edges.count
println(s"edgesCount: $edgesCount")
graph1.edges.collect().foreach(println)
//PageRank
val pageRankGraph = graph1.pageRank(0.001)
pageRankGraph.vertices.sortBy(_._2, false).saveAsTextFile("/user/hadoop/data/temp/graph/graph.pr")
pageRankGraph.vertices.top(5)(Ordering.by(_._2)).foreach(println)
//Connected Components
val connectedComponentsGraph = graph1.connectedComponents()
connectedComponentsGraph.vertices.sortBy(_._2, false).saveAsTextFile("/user/hadoop/data/temp/graph/graph.cc")
connectedComponentsGraph.vertices.top(5)(Ordering.by(_._2)).foreach(println)
//TriangleCount主要用途之一是用于社区发现保持sourceId小于destId
val graph2 = GraphLoader.edgeListFile(sc, path, true)
val triangleCountGraph = graph2.triangleCount()
triangleCountGraph.vertices.sortBy(_._2, false).saveAsTextFile("/user/hadoop/data/temp/graph/graph.tc")
triangleCountGraph.vertices.top(5)(Ordering.by(_._2)).foreach(println)
sc.stop()
}
}

Pasted from: http://blog.csdn.net/fighting_one_piece/article/details/39668267

From WizNote

Spark学习笔记-GraphX-1的更多相关文章

Spark学习笔记--Graphx
浅谈Graphx: http://blog.csdn.net/shangwen_/article/details/38645601 Pregel: http://blog.csdn.net/shang ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark学习笔记0——简单了解和技术架构
目录 Spark学习笔记0--简单了解和技术架构什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器受 ...
Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的sp ...
Spark学习笔记3——RDD（下）
目录 Spark学习笔记3--RDD(下) 向Spark传递函数通过匿名内部类通过具名类传递通过带参数的 Java 函数类传递通过 lambda 表达式传递(仅限于 Java 8 及以上) 常 ...
Spark学习笔记2——RDD（上）
目录 Spark学习笔记2--RDD(上) RDD是什么? 例子创建 RDD 并行化方式读取外部数据集方式 RDD 操作转化操作行动操作惰性求值 Spark学习笔记2--RDD(上) 笔记摘 ...
Spark学习笔记1——第一个Spark程序：单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-c ...

随机推荐

oracle锁---原理篇
在现代的多用户多任务系统中,必然会出现多个用户同时访问共享的某个对象,这个对象可能是表,行,或者内存结构,为了解决多个用户并发性访问带来的数据的安全性,完整性及一致性问题,必须要有一种机制,来使对这些 ...
每月IT摘录201901
技术 1.Jsessionid只是tomcat的对sessionid的叫法,其实就是sessionid:在其它的容器也许就不叫jsessionid了. 2.在 InnoDB 中,索引使用的数据结构是 ...
poj3279（枚举）
题目链接:https://vjudge.net/contest/294982#problem/C 题意:给定由0,1组成的m*n型矩阵,每次翻转一个结点会顺带翻转与其相邻的结点,问将矩阵翻转为全0的最 ...
pta l3-20（至多删三个字符）
题目链接:https://pintia.cn/problem-sets/994805046380707840/problems/994805046946938880 题意:给定一个长度<=106 ...
206. Reverse Linked List (List)
Reverse a singly linked list. /** * Definition for singly-linked list. * struct ListNode { * int val ...
SQL Server中row_number的用法
ROW_NUMBER()函数将针对SELECT语句返回的每一行,从1开始编号,赋予其连续的编号.在查询时应用了一个排序标准后,只有通过编号才能够保证其顺序是一致的,当使用ROW_NUMBER函数时,也 ...
并行网络爬虫（C++实现）
step1 使用socket编程技术,利用http协议,抽取网页中的url,实现简单的爬虫. socket int socket (int domain, int type, int protocol ...
【Linux 进程】exec族函数详解
exec族的组成: 在Linux中,并不存在一个exec()的函数形式,exec指的是一组函数,一共有6个,分别是: #include <unistd.h> extern char **e ...
swift4.2 打印devicetoken
import UIKit import UserNotifications @UIApplicationMain class AppDelegate: UIResponder, UIApplicati ...
swift -2018 - 创建PCH文件
第一种:简单方式在swift文件创建一个OC文件 1> command + n 2> 3> 此时你会发现有提示让你创建桥接文件 4>删除 OC文件 5> 直接复制 ...

Spark学习笔记-GraphX-1

Spark学习笔记-GraphX-1

Spark学习笔记-GraphX-1的更多相关文章

随机推荐

热门专题