【大数据系列】MapReduce示例好友推荐

package org.slp;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

import java.util.StringTokenizer;

/**

 * Created by sanglp on 2017/7/17.

 */

public class Test2Mapper extends Mapper<LongWritable ,Text,Text,Text> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //super.map(key, value, context);

        String line = value.toString();//一行数据代表一组好友关系

        String[] ss = line.split("\t");

        context.write(new Text(ss[0]),new Text(ss[1]));//主从分成两行输出

        context.write(new Text(ss[1]),new Text(ss[0]));

    }

}

package org.slp;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

import java.util.HashSet;

import java.util.Iterator;

import java.util.Set;

/**

 * Created by sanglp on 2017/7/17.

 */

public class Test2Reduce extends Reducer<Text,Text,Text,Text> {

    @Override

    protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {

        //super.reduce(key, values, context);

        Set<String> set = new HashSet<String>();

        for(Text t :values ){

            set.add(t.toString());

        }

        if (set.size()>1){

            for(Iterator j = set.iterator();j.hasNext();){

                String name = (String)j.next();

                for(Iterator k = set.iterator();k.hasNext();){

                    String other = (String)k.next();

                    if(!name.equals(other)){

                        context.write(new Text(name),new Text(other));

                    }

                }

            }

        }

    }

}

package org.slp;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**

 * Created by sanglp on 2017/7/17.

 */

public class JobRun2 {

    public static void main(String[] args){

        Configuration conf = new Configuration();

        conf.set("mapred.job.tracker","node1:9001");

        conf.set("mapred.job.tracker","node1:9001");

        conf.set("mapred.jar","C:\\Users\\sanglp\\qq.jar");

        try {

            Job job = new Job(conf);

            job.setJobName("qq");

            job.setJarByClass(JobRun2.class);

            job.setMapperClass(Test2Mapper.class);

            job.setReducerClass(Test2Reduce.class);

            job.setMapOutputKeyClass(Text.class);

            job.setMapOutputValueClass(Text.class);

            job.setNumReduceTasks(1);//设置reduce任务的个数

            //mapreduce输入数据所在目录或文件

            FileInputFormat.addInputPath(job,new Path("/usr/input/qq"));

            //mr执行之后的输出数据的目录

            FileOutputFormat.setOutputPath(job,new Path("/usr/out/qq"));

            try {

                System.exit(job.waitForCompletion(true)?0:1);

            } catch (InterruptedException e) {

                e.printStackTrace();

            } catch (ClassNotFoundException e) {

                e.printStackTrace();

            }

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

}

文件内容例如：

小明小李

小花小白

【大数据系列】MapReduce示例好友推荐的更多相关文章

大数据学习——mapreduce共同好友
数据 commonfriends.txt A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D ...
大数据系列之分布式计算批处理引擎MapReduce实践-排序
清明刚过,该来学习点新的知识点了. 上次说到关于MapReduce对于文本中词频的统计使用WordCount.如果还有同学不熟悉的可以参考博文大数据系列之分布式计算批处理引擎MapReduce实践. ...
大数据系列4：Yarn以及MapReduce 2
系列文章: 大数据系列:一文初识Hdfs 大数据系列2:Hdfs的读写操作大数据谢列3:Hdfs的HA实现通过前文,我们对Hdfs的已经有了一定的了解,本文将继续之前的内容,介绍Yarn与Yarn ...
大数据系列之分布式计算批处理引擎MapReduce实践
关于MR的工作原理不做过多叙述,本文将对MapReduce的实例WordCount(单词计数程序)做实践,从而理解MapReduce的工作机制. WordCount: 1.应用场景,在大量文件中存储了 ...
大数据系列之并行计算引擎Spark介绍
相关博文:大数据系列之并行计算引擎Spark部署及应用 Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. Spark是UC Berkeley AMP lab ( ...
大数据系列（2）——Hadoop集群坏境CentOS安装
前言前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMwa ...
大数据系列之数据仓库Hive命令使用及JDBC连接
Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理大数据系列之数据仓库Hive安装大数据系列之数据仓库Hive中分区Partition如何使用大数据系列之数据仓库Hive命令使用 ...
大数据系列（5）——Hadoop集群MYSQL的安装
前言有一段时间没写文章了,最近事情挺多的,现在咱们回归正题,经过前面四篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,相关的两款软件VSFTP和SecureCRT也已经正常安装了. ...
大数据系列（4）——Hadoop集群VSFTP和SecureCRT安装配置
前言经过前三篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环 ...

随机推荐

Ubuntu 12.04安装Java开发环境（jdk1.7 + Eclipse）
首先,去官网下载linux版本的jdk和eclipse tar包,并将其解压出来.我将jdk包发在了/usr/java/目录下,eclipse放在了/opt/目录下. 然后,配置java开发环境,即安 ...
Linux目录和文件管理
今天我们来介绍一下对于Linux系统“命令“的理解和分类以及常用的目录文件管理命令的使用. 一. 命令用于实现某一类功能的指令或程序,命令的执行依赖于解释器程序(例如:/bin/bash) 分类内 ...
iOS : 用 InterfaceBuilder 开始一个项目
1.创建一个 xib 文件 : Main_iPhone.xib 更改 File's Owner 的 Class 为 UIApplication; 添加 1 个 Window .1 个 Object . ...
drools研究后记
在实际工作中,有关于达标推断的业务逻辑就是谁谁谁消费满了多少钱.就返多少钱的优惠券声明:不是drools不好,仅仅是在我遇到的场景下,不合适,不够好在使用drools的时候发现有例如以下问题: ...
Css 去除浮动
清除浮动的方法清除浮动方法大致有两类,一类是clear:both | left | right ,另一类则是创建BFC,细分又可以分为多种. 通过在浮动元素末尾添加一个空的标签例如并设置样式为cle ...
MVC學習網站
http://www.cnblogs.com/haogj/archive/2011/11/23/2246032.html
mySql的desc与explain分析性能（主要分析索引）
desc select * from A where id =‘110’; 查询结果的含义请参考:http://www.2cto.com/database/201209/156466.html
linux下主流的三种远程技术
远程登录操作对于租用服务器的用户来说都不陌生.特别是租用国外服务器的用户来说,更是家常便饭.通过远程登录操作,即使我们人在深圳,也能无差别的操作远在美国的服务器.而对于linux系统下的服务器,目前主 ...
Windows程序执行过程
Windows应用程序: WinMain函数(入口函数): 1. 设计窗体类,注冊窗体类.WNDCLASS 2. 创建窗体,显示及更新窗体. 3. 消息循环. 窗体过程函数(回调函数):WindowP ...
Nexus5 电信3G保留数据和Root升级Android 6.0
前提: A 备份手机重要数据,安全第一 B 进入twrp recovery 备份EFS,建议最好拷贝到电脑上(如果没有twrp,则需要先刷twrp,具体指令请看下面步骤第10条) C 因为Androi ...

【大数据系列】MapReduce示例好友推荐

【大数据系列】MapReduce示例好友推荐的更多相关文章

随机推荐

热门专题