海量数据的二度人脉挖掘算法（Hadoop 实现）

最近做了一个项目，要求找出二度人脉的一些关系，就好似新浪微博的“你可能感兴趣的人” 中，间接关注推荐；简单描述：即你关注的人中有N个人同时都关注了 XXX 。

在程序的实现上，其实我们要找的是：若 User1 follow了10个人｛User3，User4，User5，... ，User12｝记为集合UF1，那么 UF1中的这些人，他们也有follow的集合，分别是记为： UF3（User3 follow的人），UF4，UF5，...，UF12；而在这些集合肯定会有交集，而由最多集合求交产生的交集，就是我们要找的：感兴趣的人。

我在网上找了些，关于二度人脉算法的实现，大部分无非是通过广度搜索算法来查找，犹豫深度已经明确了2以内；这个算法其实很简单，第一步找到你关注的人；第二步找到这些人关注的人，最后找出第二步结果中出现频率最高的一个或多个人，即完成。

但如果有千万级别的用户，那在运算时，就肯定会把这些用户的follow 关系放到内存中，计算的时候依次查找；先说明下我没有明确的诊断对比，这样做的效果一定没基于hadoop实现的好；只是自己，想用hadoop实现下，最近也在学；若有不足的地方还请指点。

首先，我的初始数据是文件，每一行为一个follow 关系 ida+‘\t’+idb；表示 ida follow idb。其次，用了2个Map/Reduce任务。

Map/Reduce 1：找出任意一个用户的 follow 集合与被 follow 的集合。如图所示：

代码如下：

Map任务：输出时 key ：间接者 A 的ID ，value：follow 的人的ID 或被follow的人的ID

`01`	`public` `void` `map(Text key, IntWritable values, Context context)` `throwsIOException,InterruptedException{`

`02`	`int` `value = values.get();`

`03`	`//切分出两个用户id`

`04`	`String[] _key = Separator.CONNECTORS_Pattern.split(key.toString());`

`05`	`if(_key.length ==2){`

`06`	`//"f"前缀表示 follow；"b" 前缀表示被follow`

`07`	`context.write(new` `Text(_key[0]),` `new` `Text("f"+_key[1]));`

`08`	`context.write(new` `Text(_key[1]),` `new` `Text("b"+_key[0]));`

09

10

11 }

12 }

Reduce任务：输出时 key ：间接者 A 的ID ， value为两个String，第一个而follow的所有人（用分割符分割），第二个为被follow的人（同样分割）

`01`	`protected` `void` `reduce(Text key, Iterable<TextPair> pairs, Context context)`

`02`	`throws` `IOException,InterruptedException{`

`03`	`StringBuilder first_follow =` `new` `StringBuilder();`

`04`	`StringBuilder second_befollow =` `new` `StringBuilder();`

05

`06`	`for(TextPair pair: pairs){`

`07`	`String id = pair.getFirst().toString();`

`08`	`String value = pair.getSecond().toString();`

`09`	`if(id.startsWith("f")){`

`10`	`first_follow.append(id.substring(1)).append(Separator.TABLE_String);`

`11`	`}` `else` `if(id.startsWith("b")){`

`12`	`second_befollow.append(id.substring(1)).append(Separator.TABLE_String);`

13 }

14 }

15

`16`	`context.write(key,` `newTextPair(first_follow.toString(),second_befollow.toString()));`

17 }

其中Separator.TABLE_String为自定义的分隔符；TextPair为自定义的 Writable 类，让一个key可以对应两个value，且这两个value可区分。

Map/Reduce 2：在上一步关系中，若B follow A，而 A follow T ，则可以得出 T 为 B 的二度人脉，且间接者为A ，于是找出相同二度人脉的不同间接人。如图所示：

代码如下：

Map 任务：输出时 key 为由两个String 记录的ID表示的二度人脉关系，value 为这个二度关系产生的间接人的ID

`01`	`public` `void` `map(Text key, TextPair values, Context context)` `throwsIOException,InterruptedException{`

`02`	`Map<String, String> first_follow =` `new` `HashMap<String, String>();`

`03`	`Map<String, String> second_befollow =` `new` `HashMap<String, String>();`

`04`	`String _key = key.toString();`

`05`	`String[] follow = values.getFirst().toString().split(Separator.TABLE_String);`

06

`07`	`String[] second = values.getSecond().toString().split(Separator.TABLE_String);`

08

`09`	`for(String sf : follow){`

10

`11`	`first_follow.put(sf , _key );`

12

13 }

14

`15`	`for(String ss : second){`

16

`17`	`second_befollow.put(ss , _key );`

18

19 }

20

`21`	`for(Entry<String, String> f : first_follow.entrySet()){`

`22`	`for(Entry<String, String> b : second_befollow.entrySet()){`

`23`	`context.write(new` `TextPair(f.getKey() ,b.getKey()),` `new` `Text(key));`

24 }

25 }

26 }

Reduce任务：输出时 key 仍然为二度人脉关系， value 为所有间接人的ID以逗号分割。

查看源码

打印 ?

`01`	`protected` `void` `reduce(TextPair key, Iterable<Text> values, Context context)`

`02`	`throws` `IOException, InterruptedException {`

03

`04`	`StringBuilder resutl =` `new` `StringBuilder();`

`05`	`for` `(Text text : values){`

`06`	`resutl.append(text.toString()).append(",");`

07 }

08

`09`	`context.write(key,` `new` `Text(resutl.toString()));`

10 }

到这步，二度人脉关系基本已经挖掘出来，后续的处理就很简单了，当然也基于二度人脉挖掘三度，四度：）

来自：http://my.oschina.net/BreathL/blog/75112

海量数据的二度人脉挖掘算法（Hadoop 实现）的更多相关文章

使用MapReduce实现二度人脉搜索算法
一,背景介绍在新浪微博.人人网等社交网站上,为了使用户在网络上认识更多的朋友,社交网站往往提供类似“你可能感兴趣的人”.“间接关注推荐”等好友推荐的功能,其中就包含了二度人脉算法. 二,算法实现原 ...
依据二度人脉推荐好友sql
friend表结构 DROP TABLE IF EXISTS FRIEND; create table friend( uid bigint not null comment ' ...
hadoop计算二度人脉关系推荐好友
https://www.jianshu.com/p/8707cd015ba1 问题描述: 以下是qq好友关系,进行好友推荐,比如:老王和二狗是好友 , 二狗和春子以及花朵是好友,那么老王和花朵或者老 ...
MapReduce实现二度好友关系
一.问题定义我在网上找了些,关于二度人脉算法的实现,大部分无非是通过广度搜索算法来查找,犹豫深度已经明确了2以内:这个算法其实很简单,第一步找到你关注的人:第二步找到这些人关注的人,最后找出第二步结 ...
Spark 计算人员二度关系
1.一度人脉:双方直接是好友 2.二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你.你们的关系是: 你->朋友->陌生人 3.三度人脉:即你朋友 ...
Hadoop MapReduce实现人员二度关系运算
1.一度人脉:双方直接是好友 2.二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你.你们的关系是: 你->朋友->陌生人 3.三度人脉:即你朋友 ...
静态频繁子图挖掘算法用于动态网络——gSpan算法研究
摘要随着信息技术的不断发展,人类可以很容易地收集和储存大量的数据,然而,如何在海量的数据中提取对用户有用的信息逐渐地成为巨大挑战.为了应对这种挑战,数据挖掘技术应运而生,成为了最近一段时期数据科学的 ...
基于Spark GraphX计算二度关系
关系计算问题描述二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系.目前微博通过二度关系实现了潜在用户的推荐.用户的一度关系包含了关注.好友两种类型,二度关系则得到关注的关注.关注的好友 ...
关联规则挖掘算法之Apriori算法
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集. 关于这个算法有一个非常有名的故事:"尿布和啤酒".故事是 ...

随机推荐

OC2_分数类
// // Fraction.h // OC2_分数类 // // Created by zhangxueming on 15/6/10. // Copyright (c) 2015年 zhangxu ...
禁用Linux bash rm --force
防止无意的Linux bash rm --force 二.禁用rm -rf 因为rm -rf 删除文件的时候,经常会不小心将系统文件或者多个有用的目录删除掉.有两种方法:1,每次删除都用-i(inte ...
[GeekBand] C++学习笔记（1）——以复数类为例
本篇笔记以复数类(不含指针的类)为例进行面向对象的学习 ========================================================= 复数类的声明: class ...
九度OJ 1349 数字在排序数组中出现的次数 -- 二分查找
题目地址:http://ac.jobdu.com/problem.php?pid=1349 题目描述: 统计一个数字在排序数组中出现的次数. 输入: 每个测试案例包括两行: 第一行有1个整数n,表示数 ...
Sharepoint 2010 Workflow 发布
1.首先需要有一个已经创建好的WorkFlow 2.然后在Sharepoint中打开这个WorkFlow,点击Save as Template,系统会自动将这个Workflow保存在Site Asse ...
【HeadFirst设计模式】10.状态模式
定义: 允许对象在内部状态改变时改变它行为,对象看起来好像修改了它的类. OO原则: 封装变化多用组合,少用继承针对接口编程,不针对实现编程为交互对象之间的松耦合设计而努力类应该对扩展开放, ...
SQLite学习第03天：环境搭建
相比于其他数据库而言,SQLite的环境搭建十分简单,简单几步就可以完成: (1) 首先,从http://www.sqlite.org/download.html的网站上下载预编译的shell二进制文 ...
TweenMax动画库学习(二)
目录 TweenMax动画库学习(一) TweenMax动画库学习(二) TweenMax动画库学习(三) Tw ...
初涉GitHub
安装访问https://help.github.com/articles/set-up-git/,选择对应OS平台.有文档参考,我的是OpenSuse. 在console中下载安装http://ww ...
iPad知识点记录
这两天玩了玩虚拟机安装Mac OS系统.iPad1的越狱以及利用iTunes将iPad2的系统升级到iOS8.1,这里将一些参考资源以及关键点记录一下. 一.虚拟机安装Mac OS 首先你的系统要能够 ...

海量数据的二度人脉挖掘算法（Hadoop 实现）

海量数据的二度人脉挖掘算法（Hadoop 实现）的更多相关文章

随机推荐

热门专题