Hadoop-Map/Reduce之单表连接的实现

MapReduce程序就是根据其特性对数据进行一个简单的逻辑处理，其中最为重要的一个特性就是根据key值将value值进行合并，其次就是在shuffle阶段有排序。

遇到一个MR程序就是要巧妙利用合并、排序的特性。

单表关联就是根据利用了合并的原理。

先上测试数据

child parent

Tom Lucy

Tom Jack

Lucy Marry

Lucy Ben

Jack Alice

Jack Jesse

结果数据

grandchild grandparent

Tom Marry

Tom Ben

Tom Alice

Tom Jesse

原理说明：

从要求中我们很容易想到利用parent作为key，这样就能够把grandchild和grandparent放到valuelist中。对valueList中的值进行一个笛卡尔积就能够得到最终结果。

单表连接中，左表和右表都是自身，我们用c#区分左表，用p#区分右表

map\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\

context.write(" Lucy", " C#Tom") context.write(" Jack", " C#Tom") context.write(" Marry", " C#Lucy") context.write(" Alice", " C#Jack") ......

context.write(" Tom", " P#Lucy") context.write(" Tom", " P#Jack") context.write(" Lucy", " P#Marry") context.write(" Jack", " P#Alice") ......

<" Lucy" , {" C#Tom", " P#Marry", " P#Ben"}> <" Jack" , {" C#Tom", " P#Alice", " P#Jesse"}> <" Marry" , { " C#Lucy"}> <" Alice" , { " C#Jack"}> <" Tom" , {" P#Lucy"," P#Jack"}>

Reduce\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\

context.write(" Tom", " Marry") context.write(" Tom", " Ben") context.write(" Tom", " Alice") context.write(" Tom", " Jesse")

代码奉上

package cn.genekang.hadoop.test;

import java.io.IOException;

import java.util.ArrayList;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class STjoin {

    /*

     * child parentTom LucyTom JackLucy MarryLucy BenJack AliceJack Jesse* *

     */

    // 单表连接

    public static class StjoinMap extends

            Mapper<LongWritable, Text, Text, Text> {

        private Text kText = new Text();

        private Text vText = new Text();

        @Override

        protected void map(LongWritable key, Text value, Context context)

                throws IOException, InterruptedException {

            String[] lineSplit = value.toString().split("\t");

            // c#代表的是左表 p#代表的是右表

            // 右表

            kText.set(lineSplit[1]);

            vText.set("p#" + lineSplit[0]);

            context.write(kText, vText);

            // 左表

            kText.set(lineSplit[0]);

            vText.set("c#" + lineSplit[1]);

            context.write(kText, vText);

        }

    }

    public static class StjoinReduce extends Reducer<Text, Text, Text, Text> {

        private Text kText = new Text();

        private Text vText = new Text();

        @Override

        protected void reduce(Text key, Iterable<Text> values, Context context)

                throws IOException, InterruptedException {

            ArrayList<String> cList = new ArrayList<String>();

            ArrayList<String> pList = new ArrayList<String>();

            for (Text v : values) {

                if (v.toString().contains("c#")) {

                    cList.add(v.toString().substring(2));

                } else if (v.toString().contains("p#")) {

                    pList.add(v.toString().substring(2));

                }

            }

            if (!cList.isEmpty() && !pList.isEmpty()) {

                for (String c : cList) {

                    for (String p : pList) {

                        kText.set(c);

                        vText.set(p);

                        context.write(kText, vText);

                    }

                }

            }

            // 清空list

            cList.clear();

            pList.clear();

        }

    }

    public static void main(String[] args) throws IOException,

            ClassNotFoundException, InterruptedException {

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        job.setJarByClass(STjoin.class);

        job.setMapperClass(StjoinMap.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        job.setReducerClass(StjoinReduce.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        FileInputFormat.setInputPaths(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

Hadoop-Map/Reduce之单表连接的实现的更多相关文章

Hadoop阅读笔记（三）——深入MapReduce排序和单表连接
继上篇了解了使用MapReduce计算平均数以及去重后,我们再来一探MapReduce在排序以及单表关联上的处理方法.在MapReduce系列的第一篇就有说过,MapReduce不仅是一种分布式的计算 ...
Hadoop Map/Reduce教程
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html 目的先决条件概述输入与输出例子:WordCount v1.0 ...
一步一步跟我学习hadoop(5)----hadoop Map/Reduce教程（2）
Map/Reduce用户界面本节为用户採用框架要面对的各个环节提供了具体的描写叙述,旨在与帮助用户对实现.配置和调优进行具体的设置.然而,开发时候还是要相应着API进行相关操作. 首先我们须要了解M ...
Hadoop Map/Reduce
Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集.一个Map/Reduce ...
Hadoop Map/Reduce的工作流
问题描述我们的数据分析平台是单一的Map/Reduce过程,由于半年来不断地增加需求,导致了问题已经不是那么地简单,特别是在Reduce阶段,一些大对象会常驻内存.因此越来越顶不住压力了,当前内存问 ...
Hadoop Map/Reduce 示例程序WordCount
#进入hadoop安装目录 cd /usr/local/hadoop #创建示例文件:input #在里面输入以下内容: #Hello world, Bye world! vim input #在hd ...
(转载)Hadoop map reduce 过程获取环境变量
来源:http://www.linuxidc.com/Linux/2012-07/66337.htm 作者: lmc_wy Hadoop任务执行过程中,在每一个map节点或者reduce节点能获取 ...
Hadoop map reduce 任务数量优化
mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run simultan ...
hadoop2.2编程：自定义hadoop map/reduce输入文件切割InputFormat
hadoop会对原始输入文件进行文件切割,然后把每个split传入mapper程序中进行处理,FileInputFormat是所有以文件作为数据源的InputFormat实现的基类,FileInput ...

随机推荐

(转)UIColor，CGColor，CIColor三者的区别和联系
最近看了看CoreGraphics的东西,看到关于CGColor的东西,于是就想着顺便看看UIColor,CIColor,弄清楚它们之间的区别和联系.下面我们分别看看它们三个的概念: 一.UIColo ...
如何通过CSS让DIV居中对齐
给Div对应的CSS的添加如下设定即可: MARGIN-RIGHT: auto; MARGIN-LEFT: auto;
7种基本排序算法的Java实现
7种基本排序算法的Java实现转自我的Github 以下为7种基本排序算法的Java实现,以及复杂度和稳定性的相关信息. 以下为代码片段,完整的代码见Sort.java 插入排序 /** * 直接插 ...
<汇编语言系列>计算机硬件系统与汇编
寒假时,有幸拜读了卡内基-梅隆大学(CMU)的Randal E.Bryant 和 David R.O'Hallaron的名著——深入理解计算机系统(Computer System: A Program ...
数据库开发 MySQL
MySQL是Web世界中使用最广泛的数据库服务器.SQLite的特点是轻量级.可嵌入,但不能承受高并发访问,适合桌面和移动应用.而MySQL是为服务器端设计的数据库,能承受高并发访问,同时占用的内存也 ...
yii 缓存探究
1.在配置文件中 //在权威指南上是'cache' 其实可以根据不同的缓存组件起不同的名称 //memcache缓存 'memcache' => array( 'class' => 'sy ...
【javascript 变量和作用域】
今天学习了javascript 的变量和作用域的基本知识,对于以前在开发中遇到的一些不懂的小问题也有了系统的认识,收获还是比较多的. [基本类型和引用类型] ECMAScript 变量可能包含两种不同 ...
转：Java学习路线图
作者: nuanyangyang 标题: Java学习路线图(整理中,欢迎纠正) 发信站: 北邮人论坛 (Mon Aug 11 19:28:16 2014), 站内 [以下肯定是不完整的列表, ...
【SPOJ 1182】 SORTBIT - Sorted bit squence （数位DP）
SORTBIT - Sorted bit squence no tags Let's consider the 32 bit representation of all integers i from ...
【BZOJ 2005】[Noi2010]能量采集（容斥原理| 欧拉筛+ 分块）
能量采集 Description 栋栋有一块长方形的地,他在地上种了一种能量植物,这种植物可以采集太阳光的能量.在这些植物采集能量后,栋栋再使用一个能量汇集机器把这些植物采集到的能量汇集到一起. 栋栋 ...

Hadoop-Map/Reduce之单表连接的实现

Hadoop-Map/Reduce之单表连接的实现的更多相关文章

随机推荐

热门专题