Spark 计算人员三度关系

1、一度人脉：双方直接是好友

2、二度人脉：双方有一个以上共同的好友，这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你。你们的关系是： 你->朋友->陌生人

3、三度人脉：即你朋友的朋友的朋友就是这个陌生人。你们的关系是 你->朋友->朋友->陌生人

4、四度人脉：比三度增加一度，你们的关系是，你->朋友->朋友->朋友->陌生人

5、五度人脉：你->朋友->朋友->朋友->朋友->陌生人 ，像上面这张图片表示的就是一个五度人脉关系。

6、六度人脉：你->朋友->朋友->朋友->朋友->朋友->陌生人

数据格式如下：

A,B

A,C

A,E

B,D

E,D

C,F

F,G

业务逻辑如下：

1、转化操作flatMapToPair将行数据变为键值对，如A，B表示A和B认识，A可以通过B认识B的朋友，B通过A可以认识A的朋友，转化结果为｛A：A，B，deg1friend，A->B｝、｛B：B，A，deg1friend，B->A｝；

2、转化操作groupByKey对键值对按Key进行分组，转化结果为：｛A，【A，B ，deg1friend，A->B，A，E ，deg1friend，A->E， A，C，deg1friend，A->C 】｝...；

3、转化操作flatMapToPair生成包含可能存在（A->B,A->C两者走向B和C不相同，但都认识A，B和C即存在可能）二度关系的新的键值对，如A和B认识且A与C认识，那么B与C可以存在认识关系即二度关系，路线走向为：B->A->C或C->A->B；

4、转化操作filter在新的键值对中筛选出一度关系即两者已经是认识的，如A和B认识是一度关系；

5、转化操作subtractByKey对包含二度关系的键值对删除存在一度关系的人员及只剩二度关系；

6、转化操作flatMapToPair生成新的二度关系及走向（双向走向【B，C，deg2friend，C->A->B，B，C，deg2friend，B->A->C】）；

7，将新的二度关系与一度关系进行合并；

8、转化操作groupByKey对键值对按Key进行分组，转化结果为：（B，【B，A，deg1friend，B->A， B，D，deg1friend，B->D， B，C，deg2friend，C->A->B， B，E，deg2friend，B->A->E， B，E，deg2friend，B->D->E， B，E，deg2friend，E->A->B， B，E，deg2friend，E->D->B， B，C，deg2friend，B->A->C 】）...；

9、转化操作flatMapToPair生成包含可能存在（如：B->C，deg2friend，C->A->B ， B->D，deg1friend，B->D ，判断条件前为deg2friend，后为 deg1friend，前split【0】= 后split【0】，后的起点不在前的路径内）三度关系的新的键值对；

10、转化操作subtractByKey对包含三度关系的键值对删除存在一度关系的人员；

11、行为操作countByKey统计存在三度关系的比重；

具有实现：

package com.test;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.Iterator;

import java.util.List;

import java.util.Map;

import java.util.regex.Pattern;

import org.apache.commons.lang3.StringUtils;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.MapFunction;

import org.apache.spark.api.java.function.PairFlatMapFunction;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.storage.StorageLevel;

import scala.Tuple2;

public class Test2 {

	public static void main(String[] args) {

		SparkConf conf = new SparkConf().setMaster("local").setAppName("My Test APP");

		JavaSparkContext sc = new JavaSparkContext(conf);

		JavaRDD<String> rdd = sc.textFile("C:/rmgx.txt");

		JavaPairRDD<String, String> r1 = rdd.flatMapToPair(new PairFlatMapFunction<String,String,String>(){

			@Override

			public Iterator<Tuple2<String, String>> call(String t)

					throws Exception {

				List<Tuple2<String, String>> list = new ArrayList();

				String[] eachterm = t.split(",");

				list.add(new Tuple2(eachterm[0], eachterm[0] + "," + eachterm[1] + "," + "deg1friend"+ "," + eachterm[0] + "->" + eachterm[1]));

				list.add(new Tuple2(eachterm[1], eachterm[1] + "," + eachterm[0] + "," + "deg1friend"+ "," + eachterm[1] + "->" + eachterm[0]));

				return list.iterator();

			}

		});

		r1.persist(StorageLevel.DISK_ONLY());

		JavaPairRDD<String, Iterable<String>> r2 = r1.groupByKey();

		JavaPairRDD<String, String> r3 = r2.flatMapToPair(new PairFlatMapFunction<Tuple2<String,Iterable<String>>,String,String>(){

			@Override

			public Iterator<Tuple2<String, String>> call(

					Tuple2<String, Iterable<String>> t) throws Exception {

				List<Tuple2<String, String>> list = new ArrayList();

				for (Iterator iter = t._2.iterator(); iter.hasNext();) {

				     String str1 = (String)iter.next();

				     String str1_0 = str1.split(",")[0];

				     String str1_1 = str1.split(",")[1];

				     list.add(new Tuple2(str1_0+ "->" + str1_1,"deg1friend,"+str1_0+ "->" + str1_1));

				     for (Iterator iter2 = t._2.iterator(); iter2.hasNext();) {

				    	 String str2 = (String)iter2.next();

				    	 String str2_0 = str2.split(",")[0];

				    	 String str2_1 = str2.split(",")[1];

					     if(!str1_1.equals(str2_1)){

					    	 list.add(new Tuple2(str1_1+ "->" + str2_1 ,"deg2friend,"+str1_1 + "->" + str2_0 + "->" + str2_1));

					     }

				     }

				}

				return list.iterator();

			}

		});

		JavaPairRDD<String, String> r4 = r3.filter(new Function<Tuple2<String,String>,Boolean>(){

			@Override

			public Boolean call(Tuple2<String, String> v1) throws Exception {

				return v1._2.indexOf("deg1friend")>-1;

			}

		});

		r4.persist(StorageLevel.DISK_ONLY());

		JavaPairRDD<String, String> r5 = r3.subtractByKey(r4);

		JavaPairRDD<String, String> r6 = r5.flatMapToPair(new PairFlatMapFunction<Tuple2<String,String>,String,String>(){

			@Override

			public Iterator<Tuple2<String, String>> call(

					Tuple2<String, String> t) throws Exception {

				List<Tuple2<String, String>> list = new ArrayList();

				String t0 = t._1.split("->")[0];

				String t1 = t._1.split("->")[1];

				String t2_1 = t._2.split(",")[1];

				list.add(new Tuple2(t0, t0 + "," + t1 + "," + "deg2friend"+ "," +t2_1));

				list.add(new Tuple2(t1, t1 + "," + t0 + "," + "deg2friend"+ "," +t2_1));

				return list.iterator();

			}

		});

		JavaPairRDD<String, String> r7= r1.union(r6);

		JavaPairRDD<String, Iterable<String>> r8 = r7.groupByKey();

		System.out.println("线路走向："+StringUtils.join(r8.collect(), ","));

		JavaPairRDD<String, String> r9 = r8.flatMapToPair(new PairFlatMapFunction<Tuple2<String,Iterable<String>>,String,String>(){

			@Override

			public Iterator<Tuple2<String, String>> call(

					Tuple2<String, Iterable<String>> t) throws Exception {

				List<Tuple2<String, String>> list = new ArrayList();

				for (Iterator iter = t._2.iterator(); iter.hasNext();) {

				     String str1 = (String)iter.next();

				     String str1_0 = str1.split(",")[0];

				     String str1_1 = str1.split(",")[1];

				     String str1_2 = str1.split(",")[2];

				     String str1_3 = str1.split(",")[3];

				     for (Iterator iter2 = t._2.iterator(); iter2.hasNext();) {

				    	 String str2 = (String)iter2.next();

				    	 String str2_0 = str2.split(",")[0];

					     String str2_1 = str2.split(",")[1];

					     String str2_2 = str2.split(",")[2];

					     String str2_3 = str2.split(",")[3];

					     if(!str1_1.equals(str2_1) && str1_2.equals("deg2friend") && str2_2.equals("deg1friend") && !(str1_3.indexOf(str2_1)>-1) && (str1_3.split("->")[0].equals(str1_1))

					    		 &&str1_0.equals(str2_0)) {

					    	 list.add(new Tuple2(str1_1+ "->" + str2_1 ,"deg3friend,"+str1_3+"->"+str2_1));

					     }

				     }

				}

				return list.iterator();

			}

		});

		JavaPairRDD<String, String> r10 = r9.subtractByKey(r4);

		System.out.println("线路走向："+StringUtils.join(r10.collect(), ","));

		Map<String, Long> r11 = r10.countByKey();

		System.out.println(r11);

	}

}

运行结果如下：

{C->D=2, B->F=1, G->A=1, F->E=1, F->B=1, E->F=1, D->C=2, A->G=1}

Spark 计算人员三度关系的更多相关文章

Spark 计算人员二度关系
1.一度人脉:双方直接是好友 2.二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你.你们的关系是: 你->朋友->陌生人 3.三度人脉:即你朋友 ...
Hadoop MapReduce实现人员二度关系运算
1.一度人脉:双方直接是好友 2.二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你.你们的关系是: 你->朋友->陌生人 3.三度人脉:即你朋友 ...
基于Spark GraphX计算二度关系
关系计算问题描述二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系.目前微博通过二度关系实现了潜在用户的推荐.用户的一度关系包含了关注.好友两种类型,二度关系则得到关注的关注.关注的好友 ...
SparkGraphx计算指定节点的N度关系节点
直接上代码: package horizon.graphx.util import java.security.InvalidParameterException import horizon.gra ...
【Spark深入学习 -13】Spark计算引擎剖析
----本节内容------- 1.遗留问题解答 2.Spark核心概念 2.1 RDD及RDD操作 2.2 Transformation和Action 2.3 Spark程序架构 2.4 Spark ...
GraphX实现N度关系
背景本文给出了一个简单的计算图中每一个点的N度关系点集合的算法,也就是N跳关系. 之前通过官方文档学习和理解了一下GraphX的计算接口. N度关系目标: 在N轮里.找到某一个点的N度关系的点集合 ...
DSSM算法-计算文本相似度
转载请注明出处: http://blog.csdn.net/u013074302/article/details/76422551 导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下quer ...
Spark计算模型
[TOC] Spark计算模型 Spark程序模型一个经典的示例模型 SparkContext中的textFile函数从HDFS读取日志文件,输出变量file var file = sc.textF ...
python 全栈开发，Day62(外键的变种(三种关系),数据的增删改,单表查询,多表查询)
一.外键的变种(三种关系) 本节重点: 如何找出两张表之间的关系表的三种关系一.介绍因为有foreign key的约束,使得两张表形成了三种了关系: 多对一多对多一对一二.重点理解如果找出 ...

随机推荐

RN组件的生命周期
来自:http://www.devio.org/tags/#React%20Native
2019年开发App记录
Pod 制作私有库参考 https://www.jianshu.com/p/f903ecf8e882 Pod私有库的升级改代码部分,到Example文件夹执行pod install ,修改XXX.s ...
mybatis动态update语句
OpenCV Machine Learning (C++)
/*M/////////////////////////////////////////////////////////////////////////////////////////// IMPOR ...
AC自动机再加强版
AC自动机拓扑排序优化,注意拓扑排序前要把所有入度为零的点都加进去 #include<bits/stdc++.h> using namespace std; #define maxn 1 ...
Vue中的MVVM框架
ViewModel:数据双向绑定场景: 针对具有复杂交互逻辑的前段应用提供基础的架构抽象通过Ajax数据持久化,保证前端用户体验什么是vue.js? 是一个轻量级的mvvm框架数据驱动+组 ...
[CSP-S模拟测试]:题（DP+数学）
题目描述出个题就好了.这就是出题人没有写题目背景的原因.你在平面直角坐标系上.你一开始位于$(0,0)$.每次可以在上/下/左/右四个方向中选一个走一步.即:从$(x,y)$走到$(x,y+1),( ...
vux组件样式大合集
1.Actionsheet 2.Alert 3.badge 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. ...
深入理解JVM虚拟机11：Java内存异常原理与实践
本文转自互联网,侵删本系列文章将整理到我在GitHub上的<Java面试指南>仓库,更多精彩内容请到我的仓库里查看 https://github.com/h2pl/Java-Tutori ...
阶段1 语言基础+高级_1-3-Java语言高级_1-常用API_1_第1节 Scanner类_3-Scanner的使用步骤
Scanner如何进行键盘输入,引用类型就包含了Scanner,它就是引用类型,所以也有这三个步骤, 导包.创建.使用先通过api文档找到它.左边输入要查找scanner.双夹scanner右边就会 ...

Spark 计算人员三度关系

Spark 计算人员三度关系的更多相关文章

随机推荐

热门专题