MR案例：Map-Join

适用场景：一张表十分小【key不可重复】、一张表非常大。
用法：在Job提交时，首先将小表加载到 DistributedCache 分布式缓存中，然后从DistributeCache中读取小表解析成 key/value 保存到内存中（可以放在Hash Map等容器中）。然后扫描大表中的每条记录的 key 是否能在内存中找到相同 join key 的记录，如果有则直接输出结果。

package join.map;

import java.io.BufferedReader;

import java.io.FileReader;

import java.io.IOException;

import java.util.HashMap;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

 * map-join中小表的数据如下：

 *

 *    1    Beijing

 *    2    Guangzhou

 *    3    Shenzhen

 *    4    Xian

 *

 * 大表的数据如下：

 *

 *    Beijing Red Star              1

 *    Shenzhen Thunder              3

 *    Guangzhou Honda               2

 *    Beijing Rising                1

 *    Guangzhou Development Bank    2

 *    Tencent                       3

 *    Back of Beijing               1

 */

public class MapJoin {    

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        job.setJarByClass(MapJoin2.class);
 

        //此方法已过时,被job.addCacheFile()所取代

        //DistributedCache.addCacheFile(new URI("hdfs://10.16.17.182:9000/test/in/address.txt"), conf);
 

        //加载小表到 分布式缓存DistributedCache

　　　　 job.addCacheFile(new Path(args[0]).toUri());
 

        job.setMapperClass(MJMapper.class);

        job.setNumReduceTasks(0);
 

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);
 

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);
 

        FileInputFormat.addInputPath(job, new Path(args[1]));

        FileOutputFormat.setOutputPath(job, new Path(args[2]));
 

        System.exit(job.waitForCompletion(true)? 0:1);

    }

    public static class MJMapper extends Mapper<LongWritable, Text, Text, Text>{

        /**

         * 此map是存放小表数据用的

         * 注意小表的key是不能重复的，类似与数据库的外键表

         * 在这里的小表，就相当于一个外键表

         * **/

        private HashMap<String, String> map=new HashMap<String, String>();

        @Override

        protected void setup(Context context) throws IOException, InterruptedException {            

            BufferedReader br=null;        // 读取文件流

            String line;

            // 获取DistributedCached里面 的共享文件

　　　　　　　 Path[] paths = context.getLocalCacheFiles();

            for(Path path : paths){

                if(path.getName().indexOf("address") >= 0){        //如果是 address文件

　　　　　　　　　　　　br=new BufferedReader(new FileReader(path.toString()));                    

                    while((line=br.readLine()) != null){    //读取文件中的每一行

　　　　　　　　　　　　　　 String[] splited = line.split("\t");

                        map.put(splited[0], splited[1]);    //将小表解析成 key/value 存放进map

                    }

                }

            }

        }

        /**

         * map阶段读取并处理大表中的数据

         * 小表中的数据是加载到HashMap中的，无需从hdfs读取

         */

        @Override

        protected void map(LongWritable key, Text value, Context context)

                throws IOException, InterruptedException {

            if(value==null || ("").equals(value.toString())){    //跳过空值

                return;

            }

            String[] splited = value.toString().split("\t");
 

            if(map.get(splited[1]) != null){    //map中大表的 key 对应的 value 不为空
 

                Text keyOut = new Text(splited[0]);        //key=大表的第一列
                Text valueOut = new Text(map.get(splited[1]));    //value=小表的第二列
 

                context.write(keyOut, valueOut);

            }

        }

    }

}

更多参考分布式缓存DistributedCache

MR案例：Map-Join的更多相关文章

MR案例：Reduce-Join
问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star ...
MR案例：倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value. 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过 ...
MR案例：小文件处理方案
HDFS被设计来存储大文件,而有时候会有大量的小文件生成,造成NameNode资源的浪费,同时也影响MapReduce的处理效率.有哪些方案可以合并这些小文件,或者提高处理小文件的效率呢? 1). 所 ...
Hive 的 map join
学习自 http://blog.csdn.net/xqy1522/article/details/6699740 1. Map Join 的使用场景: 关联操作中有一张表非常小不等值的链接操作 2. ...
HIVE: Map Join Vs Common Join, and SMB
HIVE Map Join is nothing but the extended version of Hash Join of SQL Server - just extending Hash ...
使用Spark进行搜狗日志分析实例——map join的使用
map join相对reduce join来说,可以减少在shuff阶段的网络传输,从而提高效率,所以大表与小表关联时,尽量将小表数据先用广播变量导入内存,后面各个executor都可以直接使用 pa ...
MapReduce编程之Map Join多种应用场景与使用
Map Join 实现方式一:分布式缓存 ● 使用场景:一张表十分小.一张表很大. ● 用法: 在提交作业的时候先将小表文件放到该作业的DistributedCache中,然后从DistributeC ...
MapReduce之Map Join
一介绍之所以存在Reduce Join,是因为在map阶段不能获取所有需要的join字段,即:同一个key对应的字段可能位于不同map中.Reduce side join是非常低效的,因为shuf ...
MR案例：CombineFileInputFormat
CombineFileInputFormat是一个抽象类.Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat. 此案 ...
MR案例：倒排索引 && MultipleInputs
本案例采用 MultipleInputs类实现多路径输入的倒排索引.解读:MR多路径输入 package test0820; import java.io.IOException; import j ...

随机推荐

虚拟机VMWare安装苹果系统MacOS详细教程（联网设置，全屏插件、文件互传）
运行环境: VMware® Workstation 12 Pro(自行安装,或者用这个) 推荐(下面以10.11.6版本做的教程,但是安装时推荐使用此版本安装然后升级到10.11.6):MacOS X ...
SaltStack概述及安装
配置管理工具查看文档 https://docs.saltstack.com/en/latest/ 其他工具 puppet puppet是一种Linux.Unix.windows平台的集中配置管理系统 ...
关于LegacyExchangeDN的问题
IMCEAEX i NDR This problem is not common but quite annoying and usually hard to understood by users. ...
JS实现关闭当前子窗口，刷新父窗口及调用父窗口的方法
一.js实现关闭当前子窗口,刷新父窗口 JS代码如下: <script> function refreshParent() { window.opener.location.href = ...
ISO C++标准委员会不是一个一般意义上权力机构，基本上愿意交会费，愿意自己出时间，出酒店机票，出提案，就可以申请加入。
ISO C++标准委员会不是一个一般意义上权力机构,基本上愿意交会费,愿意自己出时间,出酒店机票,出提案,每年全世界参加会议被专家巨细靡遗地评头论足,就可以申请加入. 所以参加标准委员会背景各异,有人 ...
sVIrt概述
sVirt概述前面已经对seLInux的基本原理做了分析,seLinux主要就是基于主体和客体的安全上下文,进行访问决策.那么安全上下文是不是又可以理解为一个标签呢? 基于以上seLInux的特性, ...
Flask用Flask-SQLAlchemy连接MySQL
安装 pip3 install Flask-SQLAlchemy 测试环境目录结构 settings.py DIALECT = 'mysql' DRIVER = 'pymysql' USERNAME ...
redis哨兵集群、docker入门
redis-sentinel主从复制高可用 Redis-Sentinel Redis-Sentinel是redis官方推荐的高可用性解决方案,当用redis作master-slave的高可用时,如果m ...
maven 之 web.xml 头设置错误问题
1.一般开发工具创建web.xml的时候会默认添加web.xml头,而有些插件(例如maven相关插件)默认添加的为版本和你的开发工具Project facets(项目特性)中设置不同.那么就会导致 ...
python web框架 django 用pycharm 添加django项目
用pycharm 创建django项目用pycharm 启动django 用项目名启动点击蓝色连接的url 直接跳转到页面修改运行django 程序设置可以改端口可以在创建djang ...

MR案例：Map-Join

MR案例：Map-Join的更多相关文章

随机推荐

热门专题