海量数据的二度人脉挖掘算法（Hadoop 实现）

最近做了一个项目，要求找出二度人脉的一些关系，就好似新浪微博的“你可能感兴趣的人” 中，间接关注推荐；简单描述：即你关注的人中有N个人同时都关注了 XXX 。

在程序的实现上，其实我们要找的是：若 User1 follow了10个人｛User3，User4，User5，... ，User12｝记为集合UF1，那么 UF1中的这些人，他们也有follow的集合，分别是记为： UF3（User3 follow的人），UF4，UF5，...，UF12；而在这些集合肯定会有交集，而由最多集合求交产生的交集，就是我们要找的：感兴趣的人。

我在网上找了些，关于二度人脉算法的实现，大部分无非是通过广度搜索算法来查找，犹豫深度已经明确了2以内；这个算法其实很简单，第一步找到你关注的人；第二步找到这些人关注的人，最后找出第二步结果中出现频率最高的一个或多个人，即完成。

但如果有千万级别的用户，那在运算时，就肯定会把这些用户的follow 关系放到内存中，计算的时候依次查找；先说明下我没有明确的诊断对比，这样做的效果一定没基于hadoop实现的好；只是自己，想用hadoop实现下，最近也在学；若有不足的地方还请指点。

首先，我的初始数据是文件，每一行为一个follow 关系 ida+‘\t’+idb；表示 ida follow idb。其次，用了2个Map/Reduce任务。

Map/Reduce 1：找出任意一个用户的 follow 集合与被 follow 的集合。如图所示：

代码如下：

Map任务：输出时 key ：间接者 A 的ID ，value：follow 的人的ID 或被follow的人的ID

`01`	`public` `void` `map(Text key, IntWritable values, Context context)` `throwsIOException,InterruptedException{`

`02`	`int` `value = values.get();`

`03`	`//切分出两个用户id`

`04`	`String[] _key = Separator.CONNECTORS_Pattern.split(key.toString());`

`05`	`if(_key.length ==2){`

`06`	`//"f"前缀表示 follow；"b" 前缀表示被follow`

`07`	`context.write(new` `Text(_key[0]),` `new` `Text("f"+_key[1]));`

`08`	`context.write(new` `Text(_key[1]),` `new` `Text("b"+_key[0]));`

09

10

11 }

12 }

Reduce任务：输出时 key ：间接者 A 的ID ， value为两个String，第一个而follow的所有人（用分割符分割），第二个为被follow的人（同样分割）

`01`	`protected` `void` `reduce(Text key, Iterable<TextPair> pairs, Context context)`

`02`	`throws` `IOException,InterruptedException{`

`03`	`StringBuilder first_follow =` `new` `StringBuilder();`

`04`	`StringBuilder second_befollow =` `new` `StringBuilder();`

05

`06`	`for(TextPair pair: pairs){`

`07`	`String id = pair.getFirst().toString();`

`08`	`String value = pair.getSecond().toString();`

`09`	`if(id.startsWith("f")){`

`10`	`first_follow.append(id.substring(1)).append(Separator.TABLE_String);`

`11`	`}` `else` `if(id.startsWith("b")){`

`12`	`second_befollow.append(id.substring(1)).append(Separator.TABLE_String);`

13 }

14 }

15

`16`	`context.write(key,` `newTextPair(first_follow.toString(),second_befollow.toString()));`

17 }

其中Separator.TABLE_String为自定义的分隔符；TextPair为自定义的 Writable 类，让一个key可以对应两个value，且这两个value可区分。

Map/Reduce 2：在上一步关系中，若B follow A，而 A follow T ，则可以得出 T 为 B 的二度人脉，且间接者为A ，于是找出相同二度人脉的不同间接人。如图所示：

代码如下：

Map 任务：输出时 key 为由两个String 记录的ID表示的二度人脉关系，value 为这个二度关系产生的间接人的ID

`01`	`public` `void` `map(Text key, TextPair values, Context context)` `throwsIOException,InterruptedException{`

`02`	`Map<String, String> first_follow =` `new` `HashMap<String, String>();`

`03`	`Map<String, String> second_befollow =` `new` `HashMap<String, String>();`

`04`	`String _key = key.toString();`

`05`	`String[] follow = values.getFirst().toString().split(Separator.TABLE_String);`

06

`07`	`String[] second = values.getSecond().toString().split(Separator.TABLE_String);`

08

`09`	`for(String sf : follow){`

10

`11`	`first_follow.put(sf , _key );`

12

13 }

14

`15`	`for(String ss : second){`

16

`17`	`second_befollow.put(ss , _key );`

18

19 }

20

`21`	`for(Entry<String, String> f : first_follow.entrySet()){`

`22`	`for(Entry<String, String> b : second_befollow.entrySet()){`

`23`	`context.write(new` `TextPair(f.getKey() ,b.getKey()),` `new` `Text(key));`

24 }

25 }

26 }

Reduce任务：输出时 key 仍然为二度人脉关系， value 为所有间接人的ID以逗号分割。

查看源码

打印 ?

`01`	`protected` `void` `reduce(TextPair key, Iterable<Text> values, Context context)`

`02`	`throws` `IOException, InterruptedException {`

03

`04`	`StringBuilder resutl =` `new` `StringBuilder();`

`05`	`for` `(Text text : values){`

`06`	`resutl.append(text.toString()).append(",");`

07 }

08

`09`	`context.write(key,` `new` `Text(resutl.toString()));`

10 }

到这步，二度人脉关系基本已经挖掘出来，后续的处理就很简单了，当然也基于二度人脉挖掘三度，四度：）

来自：http://my.oschina.net/BreathL/blog/75112

海量数据的二度人脉挖掘算法（Hadoop 实现）的更多相关文章

使用MapReduce实现二度人脉搜索算法
一,背景介绍在新浪微博.人人网等社交网站上,为了使用户在网络上认识更多的朋友,社交网站往往提供类似“你可能感兴趣的人”.“间接关注推荐”等好友推荐的功能,其中就包含了二度人脉算法. 二,算法实现原 ...
依据二度人脉推荐好友sql
friend表结构 DROP TABLE IF EXISTS FRIEND; create table friend( uid bigint not null comment ' ...
hadoop计算二度人脉关系推荐好友
https://www.jianshu.com/p/8707cd015ba1 问题描述: 以下是qq好友关系,进行好友推荐,比如:老王和二狗是好友 , 二狗和春子以及花朵是好友,那么老王和花朵或者老 ...
MapReduce实现二度好友关系
一.问题定义我在网上找了些,关于二度人脉算法的实现,大部分无非是通过广度搜索算法来查找,犹豫深度已经明确了2以内:这个算法其实很简单,第一步找到你关注的人:第二步找到这些人关注的人,最后找出第二步结 ...
Spark 计算人员二度关系
1.一度人脉:双方直接是好友 2.二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你.你们的关系是: 你->朋友->陌生人 3.三度人脉:即你朋友 ...
Hadoop MapReduce实现人员二度关系运算
1.一度人脉:双方直接是好友 2.二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你.你们的关系是: 你->朋友->陌生人 3.三度人脉:即你朋友 ...
静态频繁子图挖掘算法用于动态网络——gSpan算法研究
摘要随着信息技术的不断发展,人类可以很容易地收集和储存大量的数据,然而,如何在海量的数据中提取对用户有用的信息逐渐地成为巨大挑战.为了应对这种挑战,数据挖掘技术应运而生,成为了最近一段时期数据科学的 ...
基于Spark GraphX计算二度关系
关系计算问题描述二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系.目前微博通过二度关系实现了潜在用户的推荐.用户的一度关系包含了关注.好友两种类型,二度关系则得到关注的关注.关注的好友 ...
关联规则挖掘算法之Apriori算法
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集. 关于这个算法有一个非常有名的故事:"尿布和啤酒".故事是 ...

随机推荐

(转)TCP注册端口号大全
分类: 网络与安全 cisco-sccp 2000/tcp Cisco SCCPcisco-sccp 2000/udp Cisco SCCp# Dan Wing <dwing&cisco ...
C语言中的%0nd，%nd，%-nd
C语言中的%0nd printf --> formatted print/格式化输出一.十进制 d -> decimal/十(shí)进制 int a=1; int b=1234; do ...
RTTI（Runtime Type Information ）
RTTI 是“Runtime Type Information”的缩写,意思是:运行时类型信息.它提供了运行时确定对象类型的方法.本文将简略介绍 RTTI 的一些背景知识.描述 RTTI 的概念,并通 ...
Linux C 程序字符串运算符-表达式(TWO)
1.字符串常量双引号"" :eg:"china" ,字符串在存储的时候会以一个\0为结束标志.2.符号常量 ,给常量取一个名字. #include< ...
Java Web开发中的名词解释
1.JVM Java虚拟机,class文件的运行时环境,就好比软件运行在操作系统一样,java要运行在JVM中才行,这也是Java之所以支持扩平台的基础. 2.Servlet/JSP 是满足一定接口需 ...
jquery checkbox 选中全选插件
checkbox 选中全选在项目中经常用到,但是不同的程序员写出的东西各有差异,在此整合了jquery checkbox插件,用起来很方便,也总结了我们项目中通常会出现问题的地方,一行代码搞定. ...
JS 页面打印
var hkey_root, hkey_path, hkey_key hkey_root = "HKEY_CURRENT_USER" hkey_path = "\\Sof ...
WCF学习笔记(基于REST规则方式)
一.WCF的定义 WCF是.NET 3.0后开始引入的新技术,意为基于windows平台的通讯服务. 首先在学习WCF之前,我们也知道他其实是加强版的一个面向服务(SOA)的框架技术. 如果熟悉Web ...
cgi创建web应用(一)之传递表单数据与返回html
主旨: 0.环境说明 1.创建一个cgi本地服务 2.创建一个html表单页 3.创建一个对应的cgi 脚本文件 4.运行调试 0.环境说明: 系统:win7 32位家庭版 python:2.7 代码 ...
会话控制：cookie和session基础学习笔记
在多次HTTP连接间维护用户与同一用户发出的不同请求之间关联的情况称为维护一个会话(session) 我们可以简单理解为浏览器的开关. 其实对cookie和session也是主要为curd操作 coo ...

海量数据的二度人脉挖掘算法（Hadoop 实现）

海量数据的二度人脉挖掘算法（Hadoop 实现）的更多相关文章

随机推荐

热门专题