本文转载于：http://blog.csdn.net/xyilu/article/details/8996204

一.准备两张表以及对应的数据

（1）m_ys_lab_jointest_a（以下简称表A）

建表语句：

create table if not exists m_ys_lab_jointest_a (

     id bigint,

     name string

)

row format delimited

fields terminated by ''

lines terminated by ''

stored as textfile;

具体数据如下：

id    name

1     北京

2     天津

3     河北

4     山西

5     内蒙古

6     辽宁

7     吉林

8     黑龙江

（2）m_ys_lab_jointest_b（以下简称表B）

建表语句为：

create table if not exists m_ys_lab_jointest_b (

     id bigint,

     statyear bigint,

     num bigint

)

row format delimited

fields terminated by ''

lines terminated by ''

stored as textfile;

具体数据如下：

id   statyear  num

1     2010     1962

1     2011     2019

2     2010     1299

2     2011     1355

4     2010     3574

4     2011     3593

9     2010     2303

9     2011     2347

我们的目的是，以id为key做join操作，得到以下表：

m_ys_lab_jointest_ab

id     name statyear     num
1       北京    2011    2019
1       北京    2010    1962
2       天津    2011    1355
2       天津    2010    1299
4       山西    2011    3593
4       山西    2010    3574

二.计算模型

整个计算过程是：

（1）在map阶段，把所有记录标记成<key, value>的形式，其中key是id，value则根据来源不同取不同的形式：来源于表A的记录，value的值为"a#"+name；来源于表B的记录，value的值为"b#"+score。

（2）在reduce阶段，先把每个key下的value列表拆分为分别来自表A和表B的两部分，分别放入两个向量中。然后遍历两个向量做笛卡尔积，形成一条条最终结果。

如下图所示：

上代码：

 import java.io.IOException;

 import java.util.ArrayList;

 import java.util.Iterator;

 import java.util.List;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapred.FileSplit;

 import org.apache.hadoop.mapred.JobConf;

 import org.apache.hadoop.mapred.MapReduceBase;

 import org.apache.hadoop.mapred.Mapper;

 import org.apache.hadoop.mapred.OutputCollector;

 import org.apache.hadoop.mapred.Reducer;

 import org.apache.hadoop.mapred.Reporter;  

 /**

  * MapReduce实现Join操作

  */

 public class MapRedJoin {

     public static final String DELIMITER = "\u0009"; // 字段分隔符  

     // map过程

     public static class MapClass extends MapReduceBase implements Mapper<LongWritable, Text, Text, Text> {

         public void configure(JobConf job) {

             super.configure(job);

         }  

         public void map(LongWritable key, Text value, OutputCollector<Text, Text> output, Reporter reporter) throws IOException, ClassCastException {

             // 获取输入文件的全路径和名称

             String filePath = ((FileSplit)reporter.getInputSplit()).getPath().toString();

             // 获取记录字符串

             String line = value.toString();

             // 抛弃空记录

             if (line == null || line.equals("")){

                 return;

             }

             // 处理来自表A的记录

             if (filePath.contains("m_ys_lab_jointest_a")) {

                 String[] values = line.split(DELIMITER); // 按分隔符分割出字段

                 if (values.length < 2){

                     return;

                 }

                 String id = values[]; // id

                 String name = values[]; // name

                 output.collect(new Text(id), new Text("a#"+name));

             } else if (filePath.contains("m_ys_lab_jointest_b")) {// 处理来自表B的记录

                 String[] values = line.split(DELIMITER); // 按分隔符分割出字段

                 if (values.length < 3){

                     return;

                 }

                 String id = values[]; // id

                 String statyear = values[]; // statyear

                 String num = values[]; //num

                 output.collect(new Text(id), new Text("b#"+statyear+DELIMITER+num));

             }

         }

     }  

     // reduce过程

     public static class Reduce extends MapReduceBase implements Reducer<Text, Text, Text, Text> {

         public void reduce(Text key, Iterator<Text> values, OutputCollector<Text, Text> output, Reporter reporter) throws IOException {

             List<String> listA = new ArrayList<String>(); // 存放来自表A的值

             List<String> listB = new ArrayList<String>(); // 存放来自表B的值

             while (values.hasNext()) {

                 String value = values.next().toString();

                 if (value.startsWith("a#")) {

                     listA.add(value.substring(2));

                 } else if (value.startsWith("b#")) {

                     listB.add(value.substring(2));

                 }

             }

             int sizeA = listA.size();

             int sizeB = listB.size();

             // 遍历两个向量

             int i, j;

             for (i = 0; i < sizeA; i ++) {

                 for (j = 0; j < sizeB; j ++) {

                     output.collect(key, new Text(listA.get(i) + DELIMITER +listB.get(j)));

                 }

             }

         }

     }  

     protected void configJob(JobConf conf) {

         conf.setMapOutputKeyClass(Text.class);

         conf.setMapOutputValueClass(Text.class);

         conf.setOutputKeyClass(Text.class);

         conf.setOutputValueClass(Text.class);

         conf.setOutputFormat(ReportOutFormat.class);

     }

 }

三.技术细节

下面说一下其中的若干技术细节：

（1）由于输入数据涉及两张表，我们需要判断当前处理的记录是来自表A还是来自表B。Reporter类getInputSplit()方法可以获取输入数据的路径，具体代码如下：

String filePath = ((FileSplit)reporter.getInputSplit()).getPath().toString();

（2）map的输出的结果，同id的所有记录（不管来自表A还是表B）都在同一个key下保存在同一个列表中，在reduce阶段需要将其拆开，保存为相当于笛卡尔积的m x n条记录。由于事先不知道m、n是多少，这里使用了两个向量（可增长数组）来分别保存来自表A和表B的记录，再用一个两层嵌套循环组织出我们需要的最终结果。

（3）在MapReduce中可以使用System.out.println()方法输出，以方便调试。不过System.out.println()的内容不会在终端显示，而是输出到了stdout和stderr这两个文件中，这两个文件位于logs/userlogs/attempt_xxx目录下。可以通过web端的历史job查看中的“Analyse This Job”来查看stdout和stderr的内容。

MapReduce实现ReduceSideJoin操作的更多相关文章

Hadoop基础-MapReduce的Join操作
Hadoop基础-MapReduce的Join操作作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.连接操作Map端Join(适合处理小表+大表的情况) no001 no002 ...
案例-使用MapReduce实现join操作
哈喽-各位小伙伴们中秋快乐,好久没更新新的文章啦,今天分享如何使用mapreduce进行join操作. 在离线计算中,我们常常不只是会对单一一个文件进行操作,进行需要进行两个或多个文件关联出更多数据, ...
使用MapReduce实现join操作
在关系型数据库中,要实现join操作是非常方便的,通过sql定义的join原语就可以实现.在hdfs存储的海量数据中,要实现join操作,可以通过HiveQL很方便地实现.不过HiveQL也是转化成 ...
Hadoop学习记录（4）|MapReduce原理|API操作使用
MapReduce概念 MapReduce是一种分布式计算模型,由谷歌提出,主要用于搜索领域,解决海量数据计算问题. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce( ...
MapReduce原理及操作
注意:本实验是对前述实验的延续,如果直接点开始实验进入则需要按先前学习的方法启动hadoop 部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录 ...
[MapReduce_add_4] MapReduce 的 join 操作
0. 说明 Map 端 join && Reduce 端 join 1. Map 端 join Map 端 join:大表+小表 => 将小表加入到内存,迭代大表每一行,与之进行 ...
【转载】MongoDB中的MapReduce 高级操作介绍
转载自残缺的孤独 1.概述 MongoDB中的MapReduce相当于关系数据库中的group by.使用MapReduce要实现两个函数Map和Reduce函数.Map函数调用emit(key,va ...
0 MapReduce实现Reduce Side Join操作
一.准备两张表以及对应的数据 (1)m_ys_lab_jointest_a(以下简称表A) 建表语句: create table if not exists m_ys_lab_jointest_a ( ...
mapreduce join操作
上次和朋友讨论到mapreduce,join应该发生在map端,理由太想当然到sql里面的执行过程了 wheremap端 join在map之前(笛卡尔积),但实际上网上看了,mapreduce的笛卡尔 ...

随机推荐

桌面小部件Wight父类AppWidgetProvider的三个方法
onUpdate()这个方法会在每次更新App Widget的时候调用,数据更新的逻辑都写在这个方法里边.而且要注意的是:在用户添加小部件的时候,会首先调用这个方法,应该在这个方法里进行初始化操作,比 ...
Eclipse配置注释模板详细介绍
<引言> Eclipse 中提供了一个非常人性化的功能,可以自动生成注释为我们程序员做项目时提供便利,并且注释内容还具有定制化可以根据自己的喜好配置不同的样式. <正文> 首 ...
mysql第一课，数据库的简单简单操作方法（配图略虐狗）
mysql -u root -p 并输入密码进入mysql管理界面 show databases; 显示数据库列表 use 数据库名; 进入该数据库 show tables;显示表列表建立新表添加 ...
LoadRunner简单介绍----性能自动化测试工具
在做性能测试中,我认为技术可以说是武功心法,工具则是一把利剑,有一把好的利剑可以帮助自己更好的完成性能测试工作.在这里简单介绍一下LoadRunner,带大家一起来认识一下这把尚方宝剑. 一.性能测试 ...
Java基础类
Java8提供了四千多个基础类,通过这些基础类库可以提高开发效率,使用它们编写好的类进行开发,不用自己去写好这个类,这个方法是干什么的,极大程度的降低了开发难度,为Java开发带来了极大的便利.本文 ...
k8s的基本使用
一.kubectl的命令参数 1)kubectl 能使用的命令.即查看帮助 [root@k8s6 ~]# kubectl kubectl controls the Kubernetes cluster ...
JavaScript判断系统语言
var lang= null; function language(){ var language=null; if (navigator.appName == 'Netscape'){ langua ...
linux nfs远程挂载和卸载
一.nfs远程挂载 1.首先确定服务端(实体挂载节点)的IP 2.通过cat /etc/hosts 查看服务端的server name 3.mount -t nfs servername:/挂载文件 ...
Shell的特殊变量
在Shell里存在的一些特殊变量:$!.$@.$#.$$.$*.$0.$n.$_.$? [root@shell ~]# sh shell.sh aaa bbb ccc$0 获取当前执行的shell脚本 ...
分享几个写 demo 的思路
好久没有动笔,最近发现了一个新的写 demo 的思路,非常有意思.仔细一想,自己仿佛积累了不少写 demo 的思路和想法,总结一下,抛砖引玉. 本文所说 demo 主要分以下三种: 本地 demo 外 ...