【Hadoop离线基础总结】MapReduce 社交粉丝数据分析求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？

MapReduce 社交粉丝数据分析

求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？

用户及好友数据

A:B,C,D,F,E,O

B:A,C,E,K

C:F,A,D,I

D:A,E,F,L

E:B,C,D,M,L

F:A,B,C,D,E,O,M

G:A,C,D,E,F

H:A,C,D,E,O

I:A,O

J:B,O

K:A,C,D

L:D,E,F

M:E,F,G

O:A,H,I,J

java代码

需要两步完成需求

首先先创建第一步的package

在package中定义main、Mapper、Reducer三个类

定义一个Mapper类

package cn.itcast.demo1.step1;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class Step1Mapper extends Mapper<LongWritable, Text, Text, Text> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //输入数据如下格式  A:B,C,D,E,O

        //将用户和好友列表分开

        String[] split = value.toString().split(":");

        //将好友列表分开，放到一个数组中去

        String[] friendList = split[1].split(",");

        //循环遍历，输出的k2,v2格式为 B [A,E]

        for (String friend : friendList) {

            context.write(new Text(friend), new Text(split[0]));

        }

    }

}

定义一个Reducer类

package cn.itcast.demo1.step1;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class Step1Reducer extends Reducer<Text,Text,Text,Text> {

    /*

    reduce接收到数据是 B [A,E]

    B是好友，集合里面装的是多个用户

    将数据最终转换成这样的形式进行输出 A-B-E-F-G-H-K-  C

     */

    @Override

    protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {

        //创建StringBuffer对象

        StringBuffer sb = new StringBuffer();

        //循环遍历得到v2并拼接成字符串

        for (Text value : values) {

            sb.append(value.toString()).append("-");

        }

        context.write(new Text(sb.toString()),key);

    }

}

程序main函数入口

package cn.itcast.demo1.step1;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class Step1Main extends Configured implements Tool {

    @Override

    public int run(String[] args) throws Exception {

        //创建job对象

        Job job = Job.getInstance(super.getConf(), "step1");

        //输入数据，设置输入路径

        job.setInputFormatClass(TextInputFormat.class);

        TextInputFormat.setInputPaths(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/共同好友/input/friends.txt"));

        //自定义map逻辑

        job.setMapperClass(Step1Mapper.class);

        //设置k2,v2输出类型

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        //自定义reduce逻辑

        job.setReducerClass(Step1Reducer.class);

        //设置k3,v3输出类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        //输出数据，设置输出路径

        job.setOutputFormatClass(TextOutputFormat.class);

        TextOutputFormat.setOutputPath(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/共同好友/step1_output"));

        //将任务提交至集群

        boolean b = job.waitForCompletion(true);

        return b ? 0 : 1;

    }

    public static void main(String[] args) throws Exception {

        int run = ToolRunner.run(new Configuration(), new Step1Main(), args);

        System.exit(run);

    }

}

运行完成后，得到第一步的数据

F-D-O-I-H-B-K-G-C-	A

E-A-J-F-	B

K-A-B-E-F-G-H-	C

G-K-C-A-E-L-F-H-	D

G-F-M-B-H-A-L-D-	E

M-D-L-A-C-G-	F

M-	G

O-	H

C-O-	I

O-	J

B-	K

E-D-	L

F-E-	M

J-I-H-A-F-	O

创建第二步的package

在package中定义main、Mapper、Reducer三个类

定义一个Mapper类

package cn.itcast.demo1.step2;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

import java.util.Arrays;

public class Step2Mapper extends Mapper<LongWritable, Text, Text, Text> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //对拿到的数据进行分割，得到用户列表和好友

        String[] split = value.toString().split("\t");

        //再对用户列表进行分割，得到用户列表数组

        String[] userList = split[0].split("-");

        //因为文件中的数据并不是按照字典顺序进行排序，所以有可能会出来A-E E-A的情况，reduceTask是无法将这种情况视为key相同的

        //所以需要进行排序

        Arrays.sort(userList);

        for (int i = 0; i < userList.length - 1; i++) {

            for (int j = i + 1; j < userList.length; j++) {

                String userTwo = userList[i] + "-" + userList[j];

                context.write(new Text(userTwo), new Text(split[1]));

            }

        }

    }

}

定义一个reducer类

package cn.itcast.demo1.step2;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class Step2Reducer extends Reducer<Text, Text, Text, Text> {

    @Override

    protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {

        //创建StringBuffer对象

        StringBuffer sb = new StringBuffer();

        for (Text value : values) {

            //获取共同好友列表

            sb.append(value.toString()).append("-");

        }

        context.write(key, new Text(sb.toString()));

    }

}

程序main函数入口

package cn.itcast.demo1.step2;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class Step2Main extends Configured implements Tool {

    @Override

    public int run(String[] args) throws Exception {

        //创建job对象

        Job job = Job.getInstance(super.getConf(), "step2");

        //输入数据，设置输入路径

        job.setInputFormatClass(TextInputFormat.class);

        TextInputFormat.setInputPaths(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/共同好友/step1_output"));

        //自定义map逻辑

        job.setMapperClass(Step2Mapper.class);

        //设置k2,v2输出类型

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        //自定义reduce逻辑

        job.setReducerClass(Step2Reducer.class);

        //设置k3,v3输出类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        //输出数据，设置输出路径

        job.setOutputFormatClass(TextOutputFormat.class);

        TextOutputFormat.setOutputPath(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/共同好友/step2_output"));

        //提交任务至集群

        boolean b = job.waitForCompletion(true);

        return b ? 0 : 1;

    }

    public static void main(String[] args) throws Exception {

        int run = ToolRunner.run(new Configuration(), new Step2Main(), args);

        System.exit(run);

    }

}

运行结果为

A-B	C-E-

A-C	D-F-

A-D	F-E-

A-E	C-B-D-

A-F	D-O-E-B-C-

A-G	C-D-F-E-

A-H	E-C-O-D-

A-I	O-

A-J	O-B-

A-K	C-D-

A-L	E-D-F-

A-M	F-E-

B-C	A-

B-D	E-A-

B-E	C-

B-F	E-A-C-

B-G	A-E-C-

B-H	E-C-A-

B-I	A-

B-K	A-C-

B-L	E-

B-M	E-

B-O	A-

C-D	F-A-

C-E	D-

C-F	A-D-

C-G	F-D-A-

C-H	D-A-

C-I	A-

C-K	A-D-

C-L	D-F-

C-M	F-

C-O	I-A-

D-E	L-

D-F	A-E-

D-G	F-A-E-

D-H	A-E-

D-I	A-

D-K	A-

D-L	F-E-

D-M	F-E-

D-O	A-

E-F	M-C-B-D-

E-G	C-D-

E-H	C-D-

E-J	B-

E-K	C-D-

E-L	D-

F-G	A-D-E-C-

F-H	D-O-C-E-A-

F-I	O-A-

F-J	B-O-

F-K	A-D-C-

F-L	D-E-

F-M	E-

F-O	A-

G-H	E-A-C-D-

G-I	A-

G-K	C-D-A-

G-L	D-E-F-

G-M	E-F-

G-O	A-

H-I	O-A-

H-J	O-

H-K	D-A-C-

H-L	E-D-

H-M	E-

H-O	A-

I-J	O-

I-K	A-

I-O	A-

K-L	D-

K-O	A-

L-M	F-E-

【Hadoop离线基础总结】MapReduce 社交粉丝数据分析求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？的更多相关文章

【Hadoop离线基础总结】impala简单介绍及安装部署
目录 impala的简单介绍概述优点缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...
【Hadoop离线基础总结】oozie的安装部署与使用
目录简单介绍概述架构安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...
【Hadoop离线基础总结】Hue的简单介绍和安装部署
目录 Hue的简单介绍概述核心功能安装部署下载Hue的压缩包并上传到linux解压编译安装启动启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...
【Hadoop离线基础总结】流量日志分析网站整体架构模块开发
目录数据仓库设计维度建模概述维度建模的三种模式本项目中数据仓库的设计 ETL开发创建ODS层数据表导入ODS层数据生成ODS层明细宽表统计分析开发流量分析受访分析访客visit分 ...
【Hadoop离线基础总结】Hive调优手段
Hive调优手段最常用的调优手段 Fetch抓取 MapJoin 分区裁剪列裁剪控制map个数以及reduce个数 JVM重用数据压缩 Fetch的抓取出现原因 Hive中对某些情况的查询不 ...
【Hadoop离线基础总结】Sqoop常用命令及参数
目录常用命令常用公用参数公用参数:数据库连接公用参数:import 公用参数:export 公用参数:hive 常用命令&参数从关系表导入--import 导出到关系表--expor ...
【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator
MapReduce案例之自定义groupingComparator 求取Top 1的数据需求求出每一个订单中成交金额最大的一笔交易订单id 商品id 成交金额 Order_0000005 Pdt ...
【Hadoop离线基础总结】工作流调度器azkaban
目录 Azkaban概述工作流调度系统的作用工作流调度系统的实现常见工作流调度工具对比 Azkaban简单介绍安装部署 Azkaban的编译 azkaban单服务模式安装与使用 azkaban ...
【Hadoop离线基础总结】数据仓库和hive的基本概念
数据仓库和Hive的基本概念数据仓库概述数据仓库英文全称为 Data Warehouse,一般简称为DW.主要目的是构建面向分析的集成化数据环境,主要职责是对仓库中的数据进行分析,支持我们做决策 ...

随机推荐

sublime text3配置html环境
1.安装View in Browser 2.配置快捷键 [1]Preferences—Key Bindings—User. [2]插入代码 [ //ie { "keys": [&q ...
使用 PyQt5 实现图片查看器
一.前言在学习 PyQt5 的过程中我会不断地做一些小的 Demo,用于让自己能够更好地理解和学习,这次要做的就是一个图片查看器,主要功能包括打开图片.拖动图片.放大和缩小图片. 最终实现的图片查看 ...
Linux相关操作
ssh配置秘钥连接远程服务器时:需要用户持有“公钥/私钥对”,远程服务器持有公钥,本地持有私钥. 客户端向服务器发出请求.服务器收到请求之后,先在用户的主目录下找到该用户的公钥,然后对比用户发送过来 ...
解析网站爬取腾讯vip视频
今天用油猴脚本vip一件解析看神奇队长.想到了问题,这个页面应该是找到了视频的api的接口,通过接口调用获取到了视频的地址. 那自己找腾讯视频地址多费劲啊,现在越来越多的参数,眼花缭乱的. 那我就找到 ...
Apache solr velocity模块漏洞复现
0x01 Solr简单介绍 Solr是建立在Apache Lucene ™之上的一个流行.快速.开放源代码的企业搜索平台. Solr具有高度的可靠性,可伸缩性和容错能力,可提供分布式索引,复制和负载平 ...
BIOS时间与系统时间(windows/linux时间同步问题)
写作动机双系统是不少人喜欢的方式,但安装双系统之后一般会出现两个系统时间不一样的问题,刚开始用双系统的时候也没怎么在意,就是装上后在网上找找相关解决方法,复制粘贴代码完事儿.但是次数多了就有点烦了, ...
Java中常量的概念
常量:在程序执行过程中,其值不发生改变的量.分类:A:字面值常量B:自定义常量字面值常量A:字符串常量(用“”括起来的内容).举例:"hello"B:整数常量 (所有的整数)举例: ...
实体识别中，或序列标注任务中的维特比Viterbi解码
看懂这个算法,首先要了解序列标注任务 QQ522414928 可以在线交流大体做一个解释,首先需要4个矩阵,当然这些矩阵是取完np.log后的结果, 分别是:初始strat→第一个字符状态的 ...
可以用 Python 编程语言做哪些神奇好玩的事情？除了生孩子不能，其他全都行！
坦克大战源自于一个用Python写各种小游戏的github合集,star数1k.除了坦克大战外,还包含滑雪者.皮卡丘GOGO.贪吃蛇.推箱子.拼图等游戏. 图片转铅笔画帮助你快速生成属于自己的铅笔 ...
Spring5参考指南:AOP代理
文章目录 AOP代理 AOP Proxies原理 AOP代理通常来说Spring AOP有两种代理方式,一种默认的JDK代理,只能代理接口,一种是CGLIB代理,可以代理具体的类对象. Spring ...

【Hadoop离线基础总结】MapReduce 社交粉丝数据分析 求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？

MapReduce 社交粉丝数据分析

求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？

【Hadoop离线基础总结】MapReduce 社交粉丝数据分析 求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？的更多相关文章

随机推荐

热门专题

【Hadoop离线基础总结】MapReduce 社交粉丝数据分析求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？

【Hadoop离线基础总结】MapReduce 社交粉丝数据分析求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？的更多相关文章