Mapjoin和Reducejoin案例

一、Mapjoin案例

　　1.需求：有两个文件，分别是订单表、商品表，

　　订单表有三个属性分别为订单时间、商品id、订单id（表示内容量大的表），

　　商品表有两个属性分别为商品id、商品名称（表示内容量小的表，用于加载到内存），

　　要求结果文件为在订单表中的每一行最后添加商品id对应的商品名称。

　　2.解决思路：

　　将商品表加载到内存中，然后再map方法中将订单表中的商品id对应的商品名称添加到该行的最后，不需要Reducer，并在Driver执行类中设置setCacheFile和numReduceTask。

　　3.代码如下：

public class CacheMapper extends Mapper<LongWritable, Text, Text, NullWritable>{

	HashMap<String, String> pdMap = new HashMap<>();

	//1.商品表加载到内存

	protected void setup(Context context) throws IOException {

		//加载缓存文件

		BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream("pd.txt"), "Utf-8"));

		String line;

		while(StringUtils.isNotEmpty(line = br.readLine()) ) {

			//切分

			String[] fields = line.split("\t");

			//缓存

			pdMap.put(fields[0], fields[1]);

		}

		br.close();

	}

	//2.map传输

	@Override

	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context)

			throws IOException, InterruptedException {

		//获取数据

		String line = value.toString();

		//切割

		String[] fields = line.split("\t");

		//获取订单中商品id

		String pid = fields[1];

		//根据订单商品id获取商品名

		String pName = pdMap.get(pid);

		//拼接数据

		line = line + "\t" + pName;

		//输出

		context.write(new Text(line), NullWritable.get());

	}

}

public class CacheDriver {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException, URISyntaxException {

		// 1.获取job信息

		Configuration conf = new Configuration();

		Job job = Job.getInstance(conf);

		// 2.获取jar包

		job.setJarByClass(CacheDriver.class);

		// 3.获取自定义的mapper与reducer类

		job.setMapperClass(CacheMapper.class);

		// 5.设置reduce输出的数据类型（最终的数据类型）

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(NullWritable.class);

		// 6.设置输入存在的路径与处理后的结果路径

		FileInputFormat.setInputPaths(job, new Path("c://table1029//in"));

		FileOutputFormat.setOutputPath(job, new Path("c://table1029//out"));

		//加载缓存商品数据

		job.addCacheFile(new URI("file:///c:/inputcache/pd.txt"));

		//设置一下reducetask的数量

		job.setNumReduceTasks(0);

		// 7.提交任务

		boolean rs = job.waitForCompletion(true);

		System.out.println(rs ? 0 : 1);

	}

}

二、Reducejoin案例

　　1.需求：同上的两个数据文件，要求将订单表中的商品id替换成对应的商品名称。

　　2.解决思路：封装TableBean类，包含属性：时间、商品id、订单id、商品名称、flag（flag用来判断是哪张表），

　　　　使用Mapper读两张表，通过context对象获取切片对象，然后通过切片获取切片名称和路径的字符串来判断是哪张表，再将切片的数据封装到TableBean对象，最后以产品id为key、TableBean对象为value传输到Reducer端；

　　　　Reducer接收数据后通过flag判断是哪张表，因为一个reduce中的所有数据的key是相同的，将商品表的商品id和商品名称读入到一个TableBean对象中，然后将订单表的中的数据读入到TableBean类型的ArrayList对象中，然后将ArrayList中的每个TableBean的商品id替换为商品名称，然后遍历该数组以TableBean为key输出。

　　3.代码如下：

/**

 * @author: PrincessHug

 * @date: 2019/3/30, 2:37

 * @Blog: https://www.cnblogs.com/HelloBigTable/

 */

public class TableBean implements Writable {

    private String timeStamp;

    private String productId;

    private String orderId;

    private String productName;

    private String flag;

    public TableBean() {

    }

    public String getTimeStamp() {

        return timeStamp;

    }

    public void setTimeStamp(String timeStamp) {

        this.timeStamp = timeStamp;

    }

    public String getProductId() {

        return productId;

    }

    public void setProductId(String productId) {

        this.productId = productId;

    }

    public String getOrderId() {

        return orderId;

    }

    public void setOrderId(String orderId) {

        this.orderId = orderId;

    }

    public String getProductName() {

        return productName;

    }

    public void setProductName(String productName) {

        this.productName = productName;

    }

    public String getFlag() {

        return flag;

    }

    public void setFlag(String flag) {

        this.flag = flag;

    }

    @Override

    public void write(DataOutput out) throws IOException {

        out.writeUTF(timeStamp);

        out.writeUTF(productId);

        out.writeUTF(orderId);

        out.writeUTF(productName);

        out.writeUTF(flag);

    }

    @Override

    public void readFields(DataInput in) throws IOException {

        timeStamp = in.readUTF();

        productId = in.readUTF();

        orderId = in.readUTF();

        productName = in.readUTF();

        flag = in.readUTF();

    }

    @Override

    public String toString() {

        return timeStamp + "\t" + productName + "\t" + orderId;

    }

}

public class TableMapper extends Mapper<LongWritable, Text,Text,TableBean> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //通过切片获取文件信息

        FileSplit split = (FileSplit) context.getInputSplit();

        String name = split.getPath().getName();

        //获取一行数据、定义TableBean对象

        String line = value.toString();

        TableBean tb = new TableBean();

        Text t = new Text();

        //判断是哪一张表

        if (name.contains("order.txt")){

            String[] fields = line.split("\t");

            tb.setTimeStamp(fields[0]);

            tb.setProductId(fields[1]);

            tb.setOrderId(fields[2]);

            tb.setProductName("");

            tb.setFlag("0");

            t.set(fields[1]);

        }else {

            String[] fields = line.split("\t");

            tb.setTimeStamp("");

            tb.setProductId(fields[0]);

            tb.setOrderId("");

            tb.setProductName(fields[1]);

            tb.setFlag("1");

            t.set(fields[0]);

        }

        context.write(t,tb);

    }

}

public class TableReducer extends Reducer<Text,TableBean,TableBean, NullWritable> {

    @Override

    protected void reduce(Text key, Iterable<TableBean> values, Context context) throws IOException, InterruptedException {

        //分别创建用来存储订单表和产品表的集合

        ArrayList<TableBean> orderBean = new ArrayList<>();

        TableBean productBean = new TableBean();

        //遍历values，通过flag判断是产品表还是订单表

        for (TableBean v:values){

            if (v.getFlag().equals("0")){

                TableBean tableBean = new TableBean();

                try {

                    BeanUtils.copyProperties(tableBean,v);

                } catch (IllegalAccessException e) {

                    e.printStackTrace();

                } catch (InvocationTargetException e) {

                    e.printStackTrace();

                }

                orderBean.add(tableBean);

            }else {

                try {

                    BeanUtils.copyProperties(productBean,v);

                } catch (IllegalAccessException e) {

                    e.printStackTrace();

                } catch (InvocationTargetException e) {

                    e.printStackTrace();

                }

            }

        }

        //拼接表

        for (TableBean ob:orderBean) {

            ob.setProductName(productBean.getProductName());

            context.write(ob,NullWritable.get());

        }

    }

}

public class TableDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        //job信息

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        //jar包

        job.setJarByClass(TableDriver.class);

        //Mapper、Reducer

        job.setMapperClass(TableMapper.class);

        job.setReducerClass(TableReducer.class);

        //Mapper输出数据类型

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(TableBean.class);

        //Reducer输出数据类型

        job.setOutputKeyClass(TableBean.class);

        job.setOutputValueClass(NullWritable.class);

        //输入输出路径

        FileInputFormat.setInputPaths(job,new Path("G:\\mapreduce\\reducejoin\\in"));

        FileOutputFormat.setOutputPath(job,new Path("G:\\mapreduce\\reducejoin\\out"));

        //提交任务

        if (job.waitForCompletion(true)){

            System.out.println("运行完成！");

        }else {

            System.out.println("运行失败！");

        }

    }

}

Mapjoin和Reducejoin案例的更多相关文章

mapjoin与reducejoin
一.mapjoin 1.Mapper类 package com.css.mapjoin; import java.io.BufferedReader; import java.io.FileInput ...
使用MapReduce实现join操作
在关系型数据库中,要实现join操作是非常方便的,通过sql定义的join原语就可以实现.在hdfs存储的海量数据中,要实现join操作,可以通过HiveQL很方便地实现.不过HiveQL也是转化成 ...
【大数据】Hive学习笔记
第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表, ...
MapReduce(四) 典型编程场景（二）
一.MapJoin-DistributedCache 应用 1.mapreduce join 介绍在各种实际业务场景中,按照某个关键字对两份数据进行连接是非常常见的.如果两份数据都比较小,那么可以 ...
工作中常见的hive语句总结
hive的启动: 1.启动hadoop2.开启 metastore 在开启 hiveserver2服务nohup hive --service metastore >> log.out 2 ...
大数据技术之Hive
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提 ...
MR案例：Reduce-Join
问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star ...
MapReduce之MapJoin案例
@ 目录使用场景优点具体办法:采用DistributedCache 案例需求分析代码实现使用场景 Map Join 适用于一张表十分小.一张表很大的场景. 优点思考:在Reduce 端处 ...
MR案例：Map-Join
适用场景:一张表十分小[key不可重复].一张表非常大. 用法:在Job提交时,首先将小表加载到 DistributedCache 分布式缓存中,然后从DistributeCache中读取小表解析成 ...

随机推荐

jmeter笔记（3）--响应结果中文乱码的解决方式
1.举例新建HTTP请求访问百度首页,响应结果如下: 2.原因 Jmeter安装目录/bin/jmeter.properties中sampleresult.default.encoding默认为IS ...
洛谷P1258 小车问题（题解）
https://www.luogu.org/problemnew/show/P1258(题目传送) 看题的第一眼就把题归为二分题,一直向着二分的方向走,却忽略了数学的推理.推理一番后(看了题解),发现 ...
DOS批处理：FOR中的Delims和Tokens参数
在For命令语句的参数F中,最难理解的就是Delims和Tokens两个选项,本文简单的做一个比较和总结. “For /f”常用来解析文本,读取字符串.分工上,delims负责切分字符串,而token ...
网页三剑客之HTML
Web服务本质 import socket def handle_request(client): request_data = client.recv(1024) print(request_dat ...
JAVA第一周学习
新学期伊始,六门专业课,课课重要,无法抉择重心,但日子还是要过的,而且要精细的过,不能得过且过 JAVA第一周任务一:学习第一章视频二:使用JDB调试JAVA 三:输入调试教材上代码,并把代码上传 ...
[物理学与PDEs]第2章习题13 将 $p$ - 方程组化为守恒律形式的一阶拟线性对称双曲组
试引进新的未知函数, 将 $p$ - 方程组 $$\beex \bea \cfrac{\p \tau}{\p t}-\cfrac{\p u}{\p x}&=0,\\ \cfrac{\p u}{ ...
-bash: Chmod: command not found
是增加该文件的所有者拥有运行权限如果所有者是root ,还要加sudo chmod u+x drlinuxclient.bin (sudo) chmod u+x drlinuxclient.bin ...
Web常见漏洞修复建议
一.SQL注入修复建议 1.过滤危险字符,例如:采用正则表达式匹配union.sleep.and.select.load_file等关键字,如果匹配到则终止运行. 2.使用预编译语句,使用PDO需要注 ...
快速查看linux命令的用法----------TLDR
之前我们如果用一个命令,但是忘了具体的参数是什么的时候,通常会用man,比如 man tar 但是man有时候特别的冗长,你要找到想要的例子非常困难,所以tldr命令就是一个很好的补充,里边会有经常用 ...
JAVA进阶11
间歇性混吃等死,持续性踌躇满志系列-------------第11天 1.ArrayList package cn.intcast.demo11; import java.util.ArrayList ...

Mapjoin和Reducejoin案例

Mapjoin和Reducejoin案例的更多相关文章

随机推荐

热门专题