MapReduce之MapJoin案例

使用场景
优点
具体办法：采用DistributedCache
案例
需求分析
代码实现

使用场景

Map Join 适用于一张表十分小、一张表很大的场景。

优点

思考：在Reduce 端处理过多的表，非常容易产生数据倾斜。怎么办？

在Map端缓存多张表，提前处理业务逻辑，这样增加Map 端业务，减少Reduce 端数据的压力，尽可能的减少数据倾斜。

具体办法：采用`DistributedCache`

（1）在Mapper的setup阶段，将文件读取到缓存集合中。

（2）在驱动函数中加载缓存。

/缓存普通文件到Task运行节点。

job.addCacheFile(new URI("file://e:/cache/pd.txt");

案例

每个MapTask在map()中完成Join

注意：

只需要将要Join的数据order.txt作为切片，让MapTask读取
pd.txt不以切片形式读入，而直接在MapTask中使用HDFS下载此文件，下载后，使用输入流手动读取其中的数据
在map()之前通常是将大文件以切片形式读取，小文件手动读取！

order.txt---->切片(orderId,pid,amount)----JoinMapper.map()

pd.txt----->切片(pid,pname)----JoinMapper.map()

需求分析

MapJoin适用于关联表中有小表的情形

代码实现

JoinBean.java

public class JoinBean {

	private String orderId;

	private String pid;

	private String pname;

	private String amount;

	@Override

	public String toString() {

		return  orderId + "\t" +  pname + "\t" + amount ;

	}

	public String getOrderId() {

		return orderId;

	}

	public void setOrderId(String orderId) {

		this.orderId = orderId;

	}

	public String getPid() {

		return pid;

	}

	public void setPid(String pid) {

		this.pid = pid;

	}

	public String getPname() {

		return pname;

	}

	public void setPname(String pname) {

		this.pname = pname;

	}

	public String getAmount() {

		return amount;

	}

	public void setAmount(String amount) {

		this.amount = amount;

	}

}

MapJoinMapper.java

/*

 * 1. 在Hadoop中，hadoop为MR提供了分布式缓存

 * 			①用来缓存一些Job运行期间的需要的文件(普通文件，jar，归档文件(har))

 * 			②通过在Job的Configuration中，使用uri代替要缓存的文件

 * 			③分布式缓存会假设当前的文件已经上传到了HDFS，并且在集群的任意一台机器都可以访问到这个URI所代表的文件

 * 			④分布式缓存会在每个节点的task运行之前，提前将文件发送到节点

 * 			⑤分布式缓存的高效是由于每个Job只会复制一次文件，且可以自动在从节点对归档文件解归档

 *

 *

 *

 *

 */

public class MapJoinMapper extends Mapper<LongWritable, Text, JoinBean, NullWritable>{

	private JoinBean out_key=new JoinBean();

	private Map<String, String> pdDatas=new HashMap<String, String>();

	//在map之前手动读取pd.txt中的内容

	@Override

	protected void setup(Mapper<LongWritable, Text, JoinBean, NullWritable>.Context context)

			throws IOException, InterruptedException {

		//从分布式缓存中读取数据

		URI[] files = context.getCacheFiles();

		for (URI uri : files) {

			BufferedReader reader = new BufferedReader(new FileReader(new File(uri)));

			String line="";

			//循环读取pd.txt中的每一行

			while(StringUtils.isNotBlank(line=reader.readLine())) {

				String[] words = line.split("\t");

				pdDatas.put(words[0], words[1]);

			}

			reader.close();

		}

	}

	//对切片中order.txt的数据进行join，输出

	@Override

	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, JoinBean, NullWritable>.Context context)

			throws IOException, InterruptedException {

		String[] words = value.toString().split("\t");

		out_key.setOrderId(words[0]);

		out_key.setPname(pdDatas.get(words[1]));

		out_key.setAmount(words[2]);

		context.write(out_key, NullWritable.get());

	}

}

MapJoinDriver.java

public class MapJoinDriver {

	public static void main(String[] args) throws Exception {

		Path inputPath=new Path("e:/mrinput/mapjoin");

		Path outputPath=new Path("e:/mroutput/mapjoin");

		//作为整个Job的配置

		Configuration conf = new Configuration();

		//保证输出目录不存在

		FileSystem fs=FileSystem.get(conf);

		if (fs.exists(outputPath)) {

			fs.delete(outputPath, true);

		}

		// ①创建Job

		Job job = Job.getInstance(conf);

		job.setJarByClass(MapJoinDriver.class);

		// 为Job创建一个名字

		job.setJobName("wordcount");

		// ②设置Job

		// 设置Job运行的Mapper，Reducer类型，Mapper,Reducer输出的key-value类型

		job.setMapperClass(MapJoinMapper.class);

		// 设置输入目录和输出目录

		FileInputFormat.setInputPaths(job, inputPath);

		FileOutputFormat.setOutputPath(job, outputPath);

		// 设置分布式缓存

		job.addCacheFile(new URI("file:///e:/pd.txt"));

		//取消reduce阶段

		job.setNumReduceTasks(0);

		// ③运行Job

		job.waitForCompletion(true);

	}

}

MapReduce之MapJoin案例的更多相关文章

MapReduce 单词统计案例编程
MapReduce 单词统计案例编程一.在Linux环境安装Eclipse软件 1. 解压tar包下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.ta ...
hadoop笔记之MapReduce的应用案例(利用MapReduce进行排序)
MapReduce的应用案例(利用MapReduce进行排序) MapReduce的应用案例(利用MapReduce进行排序) 思路: Reduce之后直接进行结果合并具体样例: 程序名:Sort. ...
hadoop笔记之MapReduce的应用案例(WordCount单词计数)
MapReduce的应用案例(WordCount单词计数) MapReduce的应用案例(WordCount单词计数) 1. WordCount单词计数作用: 计算文件中出现每个单词的频数输入结果 ...
Hadoop MapReduce编程入门案例
Hadoop入门例程简介一个.有些指令 (1)Hadoop新与旧API差异新API倾向于使用虚拟课堂(象类),而不是接口.由于这更easy扩展. 比如,能够无需改动类的实现而在虚类中加入一个方法( ...
MAPREDUCE的实战案例
reduce端join算法实现 1.需求: 订单数据表t_order: id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3 1 ...
Mapreduce 订单分组案例
程序执行流程如下: map()-->getPartition()分区--->write()(序列化,每一行都顺序执行这三个方法)--->readFields()---->com ...
【HBase】HBase与MapReduce的集成案例
目录需求步骤一.创建maven工程,导入jar包二.开发MapReduce程序三.运行结果 HBase与MapReducer集成官方帮助文档:http://archive.cloudera. ...
使用MapReduce运行WordCount案例
@ 目录一.准备数据二.MR的编程规范三.编程步骤四.编写程序 Mapper程序解读一.准备数据注意:准备的数据的格式必须是文本,每个单词之间使用制表符分割.编码必须是utf-8无bom ...
hadoop MapReduce运营商案例关于用户基站停留数据统计
注如果需要文件和代码的话可评论区留言邮箱,我给你发源代码本文来自博客园,作者:Arway,转载请注明原文链接:https://www.cnblogs.com/cenjw/p/hadoop-mapR ...

随机推荐

WebApi部署多服务器配置Nginx负载均衡
01PARTCoreWebApi教程本地演示环境 Visual Studio2019 --- Vsersion:16.4.4 + NetCore3.1.2 02PARTNginx快速搭建配置负载均衡 ...
关联吸纳的remote首次push报错rejected
F:\abb-iot\DmsAPI\DmsAPI (master -> origin) λ git push --set-upstream github master To github.com ...
python---filecmp 实现文件，目录，遍历子目录的差异对比功能。
python---filecmp ilecmp可以实现文件,目录,遍历子目录的差异对比功能. 自带filecmp模块,无需安装. 常用方法说明 filecmp提供3个操作方法,cmp(单文件对比),c ...
00_02_使用Parallels Desktop创建Windos7虚拟机
准备工作如果要看图片的准备过程请参考该链接需要注意的是给CPU配置为一个核,内存分配1024M 硬盘空间划分为60G 操作系统安装设置注:windows系统设置一般都是"下一步&quo ...
Python File close() 方法
概述 close() 方法用于关闭一个已打开的文件.高佣联盟 www.cgewang.com 关闭后的文件不能再进行读写操作, 否则会触发 ValueError 错误. close() 方法允许调用多 ...
PHP curl_share_init函数
(PHP 5 >= 5.5.0) curl_share_init — 初始化一个 cURL 共享句柄说明 resource curl_share_init ( void ) 允许两个 cURL ...
php getimagesize 函数 - 获取图像信息
getimagesize() 函数用于获取图像大小及相关信息,成功返回一个数组,失败则返回 FALSE 并产生一条 E_WARNING 级的错误信息. 语法格式:高佣联盟 www.cgewang.co ...
PHP addChild() 函数
实例给 body 元素和 footer 元素添加一个子元素: <?php$note=<<<XML<note>高佣联盟 www.cgewang.com<to& ...
Prism.Interactivity 和 Prism.Modularity 介绍
Prism.Interactivity: 主要用来截取View即界面的一些处理,而这些功能通过vm 不好实现,只能用 CommandBehaviorBase 来截取处理,特别是在处理界面异常很有用. ...
5.10 省选模拟赛 tree 树形dp 逆元
LINK:tree 整场比赛看起来最不可做确是最简单的题目. 感觉很难写不过单独考虑某个点容易想到树形dp的状态. 设f[x]表示以x为根的子树内有黑边的方案数. 白边方案只有一种所以不用记录. ...