MR案例：Reduce-Join

问题描述：两种类型输入文件：address(地址)和company(公司)进行一对多的关联查询，得到地址名(例如：Beijing)与公司名(例如：Beijing JD、Beijing Red Star)的关联信息。可参考MR案例：Map-Join

1.map阶段：对比之前的单表关联可知，reduce阶段的key必须为关联两表的key，即address.Id = company.Id。则两表经过map处理输出的key必须是Id。

Class Map<LongWritable, Text, LongWritable, Text>{

    method map(){

        // 获取文件的每一行数据，并以":"分割

        String[] line = value.toString().split(":");

        //split对应的文件名

        String fileName = ((FileSplit) context.getInputSplit()).getPath().getName();

        //处理company文件的value信息："Beijing Red Star:1"

        if (path.indexOf("company") >= 0){

            //<key,value> --<"1","company:Beijing Red Star">

            context.write(new LongWritable(line[1]), new Text("company" + ":" + line[0]));

        }

        //处理adress文件的value信息："1:Beijing"

        else if (path.indexOf("address") >= 0){

            //<key,value> --<"1","address:Beijing">

            context.write(new LongWritable(line[0]), new Text("address" + ":" + line[1]));

        }

    }

}

2.reduce阶段：首先对输入<key, values>即<”1”,[“company:Beijing Red Star”,”company:Beijing JD”,”address:Beijing”]>的values值进行遍历获取到单元信息value（例如”company:Beijing Red Star”），然后根据value中的标识符（company和address）将公司名和地址名分别存入到company集合和address集合，最后对company集合和address集合进行笛卡尔积运算得到company与address的关系，并进行输出。

Class Reducer<LongWritable, Text, Text, Text>{

    method reduce(){

        //用来存储 company 和 address 的集合

        List<String> companys = new ArrayList<String>();

        List<String> addresses = new ArrayList<String>();

        for(Text text : v2s){

            String[] result = text.toString().split(":");

            //以 company 开头的value存储到 company 集合中

            if(result[0].equals("company")){

                companys.add(result[1]);

            }

            //以 address 开头的value存储到 address 集合中

            else if(result[0].equals("address")){

                addresses.add(result[1]);

            }

        }
        /**
         * 如果只判断左表addresses.size()!=0;则转化为 左外连接 --> LEFT OUTER JOIN
         * 如果只判断右表companys.size()!=0;则转化为 右外连接 --> RIGHT OUTER JOIN
         * 左右都不判断,则转化为 全外连接 --> FULL OUTER JOIN
         */

        // 求笛卡尔积

        if(0 != companys.size()&& 0 != addresses.size()){

            for(int i=0;i<companys.size();i++){

                for(int j=0;j<addresses.size();j++){

                    //<key,value>--<"Beijing JD","Beijing">

                    context.write(new Text(companys.get(i)), new Text(addresses.get(j)));

                }

            }

        }

    }

}

MR案例：Reduce-Join的更多相关文章

Hadoop学习之路（二十一）MapReduce实现Reduce Join（多个文件联合查询）
MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接. 如果数据量比较大,在内存进行连接操会发生OOM.mapredu ...
MR案例：倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value. 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过 ...
MapReduce编程之Reduce Join多种应用场景与使用
在关系型数据库中 Join 是非常常见的操作,各种优化手段已经到了极致.在海量数据的环境下,不可避免的也会碰到这种类型的需求, 例如在数据分析时需要连接从不同的数据源中获取到数据.不同于传统的单机模式 ...
MR案例：小文件处理方案
HDFS被设计来存储大文件,而有时候会有大量的小文件生成,造成NameNode资源的浪费,同时也影响MapReduce的处理效率.有哪些方案可以合并这些小文件,或者提高处理小文件的效率呢? 1). 所 ...
MapReduce之Reduce Join
一介绍 Reduce Join其主要思想如下: 在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据对,对每条数据打一个标签(tag), 比如:t ...
MR案例：CombineFileInputFormat
CombineFileInputFormat是一个抽象类.Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat. 此案 ...
MR案例：倒排索引 && MultipleInputs
本案例采用 MultipleInputs类实现多路径输入的倒排索引.解读:MR多路径输入 package test0820; import java.io.IOException; import j ...
MR案例：输出/输入SequenceFile
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File).在SequenceFile文件中,每一个key-value对被看做是一条记 ...
MR案例：外连接代码实现
[外连接]是在[内连接]的基础上稍微修改即可.具体HQL语句详见Hive查询Join package join.map; import java.io.IOException; import java ...

随机推荐

ACME[free https] Linux中使用curl命令访问https站点4种常见错误和解决方法
free https certification generator https://github.com/Neilpang/acme.sh/wiki/%E8%AF%B4%E6%98%8E 每一种客户 ...
c++ socket相关
http://blog.sina.com.cn/s/blog_43ad62c70100gtow.html,一个简单的C语言的socket服务器和客户端程序 http://www.cnblogs.com ...
解决从Windows拷贝来的文件到Ubuntu出现乱码的问题
1.转换文件内容编码 Windows下天生的纯文本文件,其中文编码为GBK,在Ubuntu下显示为乱码,可以使用iconv命令进行转换: iconv -f gbk -t utf8 sour ...
ntpdate同步更新时间
Linux服务器运行久时,系统时间就会存在一定的误差,一般情况下可以使用date命令进行时间设置,但在做数据库集群分片等操作时对多台机器的时间差是有要求的,此时就需要使用ntpdate进行时间同步 1 ...
国产服务器离线安装gm
离线安装过程: 1.安装JPEGlib cd /opt/ ls tar -zxvf jpegsrc.v9b.tar.gz cd jpeg-9b/ ./configure make make insta ...
D. Mike and Feet---cf548D（最值）
题目链接:http://codeforces.com/problemset/problem/548/D 给你n个数,对于(1,n)长度,让你找到线段的最小值的最大值是多少 #include<io ...
icomoon.io生成字体图标
1. 准备svg图片 2. 打开icomoon选择icomoon App 3. import icons 上传本地的svg图片 4. 点击选中以后点击generate fonts形成字体图标 5. p ...
MySQL优化(一)：MySQL分库分表
一.分库分表种类 1.垂直拆分在考虑数据拆分的时候,一般情况下,应该先考虑垂直拆分.垂直可以理解为分出来的库表结构是互相独立各不相同的. - 如果有多个业务,每个业务直接关联性不大,那么就可以把每个 ...
Linux下修改.bash_profile 文件改变PATH变量的值
Linux中含有两个重要的文件 /etc/profile和$HOME/.bash_profile 每当系统登陆时都要读取这两个文件,用来初始化系统所用到的变量,其中/etc/profile是超级用户所 ...
opencv学习(1.2) - Windows 10 安装OpenCV &配置VS 2015
windows 10 安装OpenCV&配置VS 2015 环境系统:Windows 10 OpenCV版本:3.4.1 开发IDE:VS2015 社区版下载安装下载OpenCV 3.4 ...

MR案例：Reduce-Join

MR案例：Reduce-Join的更多相关文章

随机推荐

热门专题