十、spark graphx的scala示例

简介

spark graphx官网：http://spark.apache.org/docs/latest/graphx-programming-guide.html#overview

spark graphx是基于spark core之上的一个图计算组件，graphx扩展了spark RDD，是spark对于图计算的一种抽象。

这里的图，不是“图画”的意思，是一种数据结构。这种数据结构由“点”和“线”组成，拿用户关系图来说，“点”描述的就是用户，“线”描述的就是这些用户之间的关系，所以由“点”和“线”组成了一张“用户关系图”，如图：

vertex table：点，是由ID和Property属性组成的，ID必须是Long类型

edge table：线，是由起始ID，终点ID，property属性组成的，ID也必须为Long类型

property graph：图，由vertex和edge的数据，就可以构建出一张graph图数据结构

而spark graphx就是将这种数据结构创建出来，并提供简单易用的API来操作这个数据结构，如：查询、转换、关联、聚合等

代码示例

下面是scala语言的代码示例：

import org.apache.spark.graphx.{Edge, Graph}

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

/**

  * @Description spark graphx demo

  * @Author lay

  * @Date 2018/12/09 20:19

  */

object SparkGraphxDemo {

  var conf: SparkConf = _

  var sc: SparkContext = _

  var userData: Array[String] = Array("1 lay", "2 marry", "3 gary")

  var relationData: Array[String] = Array("1 2 朋友", "1 3 同事", "2 3 姐弟")

  var userRDD: RDD[(Long, String)] = _

  var relationRDD: RDD[Edge[String]] = _

  def init(): Unit = {

    conf = new SparkConf().setAppName("spark graphx demo").setMaster("local")

    sc = new SparkContext(conf)

  }

  def loadRdd(): Unit = {

    userRDD = sc.parallelize(userData).map { x => val lines = x.split(" "); (lines(0).toLong, lines(1)) }

    relationRDD = sc.parallelize(relationData).map { x => val lines = x.split(" "); Edge(lines(0).toLong, lines(1).toLong, lines(2)) }

  }

  def main(args: Array[String]): Unit = {

    // 初始化

    init()

    // 加载rdd

    loadRdd()

    // 创建graph

    var graph = Graph(userRDD, relationRDD)

    // 找出和lay有关系的人

    graph.triplets.filter(x => x.srcId == 1L).foreach{x => printf("%s是%s的%s", x.dstAttr,  x.srcAttr, x.attr);println()}

  }

}

我们将userRDD和relationRDD构建成了一个抽象结构Graph，然后过滤出了和lay有关系的人，并循环打印出结果，如下：

marry是lay的朋友

gary是lay的同事

十、spark graphx的scala示例的更多相关文章

十二、spark MLlib的scala示例
简介 spark MLlib官网:http://spark.apache.org/docs/latest/ml-guide.html mllib是spark core之上的算法库,包含了丰富的机器学习 ...
十一、spark SQL的scala示例
简介 spark SQL官网:http://spark.apache.org/docs/latest/sql-programming-guide.html sparkSQL是构建在sparkCore之 ...
Spark GraphX宝刀出鞘，图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark实战高手之路】
Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈大数据的概念与应用,正随着智能手机.平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题.图计算正在被广泛地应用于社交 ...
转载：Spark GraphX详解
1.GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求. ...
Spark GraphX 的数据可视化
概述 Spark GraphX 本身并不提供可视化的支持, 我们通过第三方库 GraphStream 和 Breeze 来实现这一目标详细代码下载:http://www.demodashi.com ...
大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例
第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式 ...
转载：四两拨千斤：借助Spark GraphX将QQ千亿关系链计算提速20倍
四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍时间 2016-07-22 16:57:00 炼数成金相似文章 (5) 原文 http://www.dataguru.cn/ ...
Spark GraphX从入门到实战
第1章 Spark GraphX 概述 1.1 什么是 Spark GraphX Spark GraphX 是一个分布式图处理框架,它是基于 Spark 平台提供对图计算和图挖掘简洁易用的而丰 ...
Spark—GraphX编程指南
Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)--数据倾斜调优 Spark面试题(六)--Spark资源调 ...

随机推荐

order by 使用注意
create table user ( id int primary key, name varchar(11) , depid int ); create table dept( id int pr ...
centos7修改静态ip地址
今天逛园的时候突然发现这篇有关网络参数修改的文章写的很好,简单又使用,格式也很好的,所以就引用过来了. http://www.cnblogs.com/hongdada/p/6666932.html
JSP（汇聚页）
JSP(汇聚页) ------------------------------------------------------------------------------------------- ...
python 将列表嵌套字典的unicode字符串转换为str格式的字符串的方法
今天在进行django开发的过程中遇到了一个非常棘手的问题, 因为需求原因, 需要将一份数据存为json格式到数据库中, 如下面这种格式: list_1 = [{"name":&q ...
hadoop1.0.4运行程序出现“Java heap Space”错误
根据虾皮博客中教程,成功搭建了一个12台电脑的Hadoop云平台,而且成功运行了软件自带的wordcount程序,处理10M数据. 但是当程序处理40M时候,却出错了.出错提示“Java Heap S ...
httpclient4.5 https请求忽略身份验证
import org.apache.commons.collections.MapUtils; import org.apache.http.*; import org.apache.http.cli ...
SQLServer 的存储过程与java交互
一. 存储过程简介 Sql Server的存储过程是一个被命名的存储在服务器上的Transacation-Sql语句集合,是封装重复性工作的一种方法,它支持用户声明的变量.条件执行和其他强大的编程 ...
实例的初始化由JVM装载类的时候进行，保证了线程的安全性
在23种设计模式中,单例是最简单的设计模式,但是也是很常用的设计模式.从单例的五种实现方式中我们可以看到程序员对性能的不懈追求.下面我将分析单例的五种实现方式的优缺点,并对其在多线程环境下的性能进行测 ...
Python中复制、深拷贝和浅拷贝的区别
深拷贝定义(deepcopy) 在Python中,由于一切皆对象,所以任何变量都可以被引用,也即可以被赋值给任何变量.但是在Python中,给变量赋值,是区分的,一般情况下,Python中的变量赋值都 ...
leetcode-733-Flood Fill
题目描述: An image is represented by a 2-D array of integers, each integer representing the pixel value ...

十、spark graphx的scala示例

简介

代码示例

十、spark graphx的scala示例的更多相关文章

随机推荐

热门专题