MapReduce(五)

MapReduce的（五）

1.MapReduce的多表关联查询。

根据文本数据格式。查询多个文本中的内容关联。查询。

2.MapReduce的多任务窜执行的使用

多任务的串联执行问题，主要是要建立controlledjob，然后建组管理起来。留意多线程因效率而导致执行结束时间不一致的问题。

-------------------------------------------------- -------------------------------------------------- ----------------------------

MapReduce的的的多表关联查询

数据：

ctoryname地址

北京红星1

深圳迅雷3

广州本田2

北京瑞星1

广州发展银行2

腾讯3

北京银行5

addressID地址名称

1北京

2广州

3深圳

4西安

代码：

包com.huhu.day05; 

import java.io.IOException; 

导入org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import com.huhu.day04.ProgenyCount; 

/ **

 * *厂名厂址为北京红星1

 *

 *地址addressID地址名称1北京

 *

 *从工厂选择factory.factoryname，address.addressname，地址在哪里

 * factory.addressed = address.addressID

 *

 *流程1.读取这2个文件？1个mapreduce 2.mapper 2个：map--同时可以处理2个文件代码3.map输出kv k：id

 * v：t1：北京红星1 k：id v：t2：1北京4.降低价值{t1：北京红

 *星1，t2：1北京}

 *

 * @作者huhu_k

 *

 * /

公共类扩展ToolRunner implements Tool { 

	私人配置conf; 

	公共静态类MyMapper扩展Mapper <LongWritable，文本，文本，文本> { 

		@覆盖

		protected void map（LongWritable key，Text value，Context context）throws IOException，InterruptedException {

			String [] line = value.toString（）。split（“\ t”）;

			如果（line [0] .matches（“\\ d”））{

				// k：1 v：t1：1：北京

				context.write（new Text（line [0]），new Text（“t1”+ line [0] +“：”+ line [1]））;

			} else {

				// k：1 v：t2：beijingredstar：1

				context.write（new Text（line [1]），new Text（“t2”+ line [0] +“：”+ line [1]）） ;

			}

		}

	} 

	公共静态类MyReduce扩展减速器{ 

		@覆盖

		保护无效设置（上下文上下文）抛出IOException，InterruptedException {

			context.write（new Text（“factoryname \ t \ t”），新文本（“地址名称”））;

		} 

		@覆盖

		protected void reduce（Text key，Iterable <Text> values，Context context）

				抛出IOException，InterruptedException {

			String fsc =“”;

			String addr =“”;

			for（Text s：values）{

				String line = s.toString（）;

				if（line.contains（“t1”））{

					addr = line.split（“：”）[1];

				} else if（line.contains（“t2”））{

					fsc = line.split（“：”）[0];

				}

			} 

			if（！fsc.equals（“”）&&！addr.equals（“”））{

				context.write（new Text（fsc），new Text（addr））;

			}

		} 

		@覆盖

		保护无效清理（上下文上下文）抛出IOException，InterruptedException {

		}

	} 

	公共静态无效的主要（字符串[]参数）抛出异常{

		多重连接t = new MutipleJoin（）;

		配置conf = t.getConf （）;

		String [] other = new GenericOptionsParser（conf，args）.getRemainingArgs（）;

		if（other.length！= 2）{

			System.err.println（“number is fail”）;

		}

		int run = ToolRunner.run（conf，t，args）;

		System.exit（运行）;

	} 

	@覆盖

	public Configuration getConf（）{

		if（conf！= null）{

			返回conf;

		}

		返回新的配置（）;

	} 

	@覆盖

	public void setConf（Configuration arg0）{ 

	} 

	@覆盖

	公共诠释运行（字符串[]其他）抛出异常{

		配置con = getConf（）;

		Job job = Job.getInstance（con）;

		job.setJarByClass（ProgenyCount.class）;

		job.setMapperClass（MyMapper.class）;

		job.setMapOutputKeyClass（Text.class）;

		job.setMapOutputValueClass（Text.class）; 

		//默认分区

		// job.setPartitionerClass（HashPartitioner.class）; 

		job.setReducerClass（MyReduce.class）;

		job.setOutputKeyClass（Text.class）;

		job.setOutputValueClass（Text.class）; 

		FileInputFormat.addInputPath（job，new Path（“hdfs：// ry-hadoop1：8020 / in / day05”））;

		Path path = new Path（“hdfs：// ry-hadoop1：8020 / out / day05.txt”）;

		FileSystem fs = FileSystem.get（getConf（））;

		if（fs.exists（path））{

			fs.delete（path，true）;

		}

		FileOutputFormat.setOutputPath（job，path）; 

		返回job.waitForCompletion（true）？0：1;

	} 

}

运行结果：

将有规律的数据进行关联查询。

二。MapReduce的的多任务窜改的使用

WordCount_Mapper

包com.huhu.day05; 

import java.io.IOException; 

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

导入org.apache.hadoop.mapreduce.Mapper; 

公共类WordCount_Mapper扩展映射器<LongWritable，Text，Text，IntWritable> { 

	private final IntWritable one = new IntWritable（1）; 

	@覆盖

	保护无效映射（LongWritable键，文本值，映射器<LongWritable，文本，文本，IntWritable> .Context上下文）

			抛出IOException，InterruptedException {

		String [] line = value.toString（）。split（“”）;

		for（String s：line）{

			context.write（new Text（s），one）;

		}

	}

}

WordCount_Reduce

包com.huhu.day05; 

import java.io.IOException; 

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer; 

公共类WordCount_Reducer扩展Reducer <Text，IntWritable，Text，IntWritable> { 

	@覆盖

	protected void reduce（Text key，Iterable <IntWritable> values，Context context）

			抛出IOException，InterruptedException { 

		int sum = 0; 

		for（IntWritable i：values）{

			sum + = i.get（）;

		}

		context.write（key，new IntWritable（sum））;

	}

}

Top10_Mapper

包com.huhu.day05; 

import java.io.IOException; 

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

导入org.apache.hadoop.mapreduce.Mapper; 

公共类Top10_Mapper扩展了Mapper <LongWritable，Text，Text，IntWritable> { 

	@覆盖

	protected void map（LongWritable key，Text value，Context context）throws IOException，InterruptedException {

		String [] line = value.toString（）。split（“\ t”）;

		context.write（new Text（line [0]），new IntWritable（Integer.parseInt（line [1]）））;

	}

}

Top10_Reducer

包com.huhu.day05; 

import java.io.IOException;

import java.util.TreeSet; 

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer; 

import com.huhu.day05.pojo.WordCount; 

公共类Top10_Reducer扩展Reducer <Text，IntWritable，WordCount，NullWritable> { 

	private TreeSet <WordCount> set = new TreeSet <>（）; 

	@覆盖

	protected void reduce（Text key，Iterable <IntWritable> values，Context context）

			抛出IOException，InterruptedException { 

		for（IntWritable v：values）{

			System.err.println（v.toString（）+“----- -----------”）;

			set.add（new WordCount（key.toString（），Integer.parseInt（v.toString（））））;

		} 

		if（10 <set.size（））{

			set.remove（set.last（））;

		} 

	} 

	@覆盖

	保护无效清理（上下文上下文）抛出IOException，InterruptedException {

		for（WordCount w：set）{

			context.write（w，NullWritable.get（））;

		}

	}

}

WordCountTop_Cuan

包com.huhu.day05; 

导入org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.jobcontrol.JobControl;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import com.huhu.day05.pojo.WordCount; 

公共类WordCountTop_Cuan扩展ToolRunner实现工具{ 

	私人配置con; 

	@覆盖

	public配置getConf（）{

		如果（con！= null）

			返回con;

		返回新的配置（）;

	} 

	@覆盖

	public void setConf（Configuration arg0）{

	} 

	@覆盖

	公共诠释运行（字符串[] arg0）抛出异常{

		配置con = getConf（）;}

		Job WordJob = Job.getInstance（con，“WordCount Job”）;

		WordJob.setJarByClass（WordCountTop_Cuan.class）;

		WordJob.setMapperClass（WordCount_Mapper.class）;

		WordJob.setMapOutputKeyClass（Text.class）;

		WordJob.setMapOutputValueClass（IntWritable.class）; 

		WordJob.setReducerClass（WordCount_Reducer.class）;

		WordJob.setOutputKeyClass（WordCount.class）;

		WordJob.setOutputValueClass（NullWritable.class）; 

		FileInputFormat.addInputPath（WordJob，new Path（“hdfs：// ry-hadoop1：8020 / in / ihaveadream.txt”））;

		Path path = new Path（“hdfs：// ry-hadoop1：8020 / out / Word_job.txt”）;

		FileSystem fs = FileSystem.get（getConf（））;

		if（fs.exists（path））{

			fs.delete（path，true）;

		}

		FileOutputFormat.setOutputPath（WordJob，path）; 

		Job TopJob = Job.getInstance（con，“Top10 Job”）;

		TopJob.setJarByClass（WordCountTop_Cuan.class）;

		TopJob.setMapperClass（Top10_Mapper.class）;

		TopJob.setMapOutputKeyClass（Text.class）;

		TopJob.setMapOutputValueClass（IntWritable.class）;

		TopJob.setReducerClass（Top10_Reducer.class）;

		TopJob.setOutputKeyClass（WordCount.class）;

		TopJob.setOutputValueClass（NullWritable.class）; 

		FileInputFormat.addInputPath（TOPJOB，路径）;

		Path paths = new Path（“hdfs：// ry-hadoop1：8020 / out / Top_Job.txt”）;

		if（fs.exists（paths））{

			fs.delete（paths，true）;

		}

		FileOutputFormat.setOutputPath（TopJob，paths）; 

		//重点

		ControlledJob controlledWC = new ControlledJob（WordJob.getConfiguration（））;

		ControlledJob controlledTP = new ControlledJob（TopJob.getConfiguration（））; 

		// JobTop依赖JobWC

		controlledTP.addDependingJob（controlledWC）;

		//定义控制器

		JobControl jobControl =新的JobControl（“WordCount和Top”）;

		jobControl.addJob（controlledWC）;

		jobControl.addJob（controlledTP）; 

		线程线程=新线程（JobControl作业控制）;

		thread.start（）; 

		而{（jobControl.allFinished（）！）

			了了Thread.sleep（1000）;

		} 

		jobControl.stop（）; 

		返回0;

	} 

	公共静态无效的主要（字符串[]参数）抛出异常{ 

		WordCountTop_Cuan wc = new WordCountTop_Cuan（）;

		配置conf = wc.getConf（）;

		String [] other = new GenericOptionsParser（conf，args）.getRemainingArgs（）;

		int run = ToolRunner.run（conf，wc，other）;

		System.exit（运行）;

	}

}

运行结果：

我是在本地运行的，如果在Hadoop的的上运行输入命令

hadoop jar xxx.jar /in/xx.txt /out/Word_Job.txt /out/Top_Job.txt

此时Top_Job依赖于Word_Job

因为Top_Job的输入路径是Word_Job的输出路径。当线程只启动一个工作，Top_job等待Word_Job运行完，Top_Job开始运行。

MapReduce(五)的更多相关文章

mapreduce (五) MapReduce实现倒排索引修改版 combiner是把同一个机器上的多个map的结果先聚合一次
(总感觉上一篇的实现有问题)http://www.cnblogs.com/i80386/p/3444726.html combiner是把同一个机器上的多个map的结果先聚合一次现重新实现一个: 思路 ...
MapReduce(五) mapreduce的shuffle机制与 Yarn
一.shuffle机制 1.概述 (1)MapReduce 中, map 阶段处理的数据如何传递给 reduce 阶段,是 MapReduce 框架中最关键的一个流程,这个流程就叫 Shuffle:( ...
MongoDB各种查询操作详解
这篇文章主要介绍了MongoDB各种查询操作详解,包括比较查询.关联查询.数组查询等,需要的朋友可以参考下一.find操作 MongoDB中使用find来进行查询,通过指定find的第一个参数可 ...
mongoDB操作2
一.find操作 MongoDB中使用find来进行查询,通过指定find的第一个参数可以实现全部和部分查询. 1.查询全部空的查询文档{}会匹配集合的全部内容.如果不指定查询文档,默认就是{}. ...
《Hadoop权威》学习笔记五：MapReduce应用程序
一.API的配置---Configuration类 API的配置:Hadoop提供了专门的API对资源进行配置,Configuration类的实例(在org.apache.hadoop.conf包)包 ...
Hadoop（十五）MapReduce程序实例
一.统计好友对数(去重) 1.1.数据准备 joe, jon joe , kia joe, bob joe ,ali kia, joe kia ,jim kia, dee dee ,kia dee, ...
Hadoop MapReduce编程 API入门系列之Crime数据分析（二十五）（未完）
不多说,直接上代码. 一共12列,我们只需提取有用的列:第二列(犯罪类型).第四列(一周的哪一天).第五列(具体时间)和第七列(犯罪场所). 思路分析基于项目的需求,我们通过以下几步完成: 1.首先 ...
大数据入门第九天——MapReduce详解（五）mapJoin、GroupingComparator与更多MR实例
一.数据倾斜分析——mapJoin 1.背景接上一个day的Join算法,我们的解决join的方式是:在reduce端通过pid进行串接,这样的话: --order ,,P0001, ,,P0001 ...
MapReduce Design Patterns(chapter 3 (part 1))(五)
Chapter 3. Filtering Patterns 本章的模式有一个共同点:不会改变原来的记录.这种模式是找到一个数据的子集,或者更小,例如取前十条,或者很大,例如结果去重.这种过滤器模式跟前 ...

随机推荐

Redis入门到高可用（十六）—— 持久化
一.持久化概念二.持久化方式三.redis持久化方式之——RDB 1.什么是RDB 在 Redis 运行时, RDB 程序将当前内存中的数据库快照保存到磁盘文件中, 在 Redis 重启动时, R ...
[elk]elasticsearch dsl语句
例子1 统计1,有唱歌兴趣的 2,按年龄分组 3,求每组平均年龄 4,按平均年龄降序排序 sql转为dsl例子 # 每种型号车的颜色数 > 1的 SELECT model,COUNT(DISTI ...
【UML】NO.53.EBook.5.UML.1.013-【UML 大战需求分析】- 组合结构图（Composition Structure Diagram）
1.0.0 Summary Tittle:[UML]NO.52.EBook.1.UML.1.012-[UML 大战需求分析]- 交互概览图(Interaction Overview Diagram) ...
SQLite multiple threads
const int loops = 1000; public void DatabaseThreadSafetyTest() { var backgroundThread = new Thread(n ...
tensorboard窥视
运行神经网络时,跟踪网络参数,以及输入输出是很重要的,可据此判断模型是否在学习,损失函数的值是否在不断减小.Tensorboard通过可视化方法,用于分析和调试网络模型. 使用tensorboard的 ...
Html Title 标签
Html Title 标签 Title 是 HTML Head 内部标签 <html> <head>  < ...
获奖感想和python学习心得
一,获奖感想很荣幸能成为小黄杉的获得者,也很感谢老师对我的这份鼓励和期望.回顾本学期的python学习中,我从一名对编程一无所知的小白,成为一名刚入门的程序猿.首先,我要感谢我的任课老师娄嘉鹏老师, ...
JS设计模式（3）代理模式
什么是代理模式? 情景:小明追女生 A 非代理模式:小明 =花=> 女生A 代理模式:小明 =花=> 让女生A的好友B帮忙 =花=> 女生A 定义:为其他对象提供一种代理以控制对这个 ...
JS(JavaScript）的初了解2（更新中···）
1.parseInt() 整数型字符串中的数字取整遇到第一个是非数字的字节就结束了. 2.parseFloat 浮点型字符中的数字取整数和小数,有两个小数点的话第二个小数点无效第二个小数点 ...
Win32汇编学习(8)：菜单
这次我们将在我们的应用程序中加入一个菜单. 理论: 菜单可以说是WINDOWS最重要的元素之一.有了它,用户可以方便地选择操作命令.用户只要细读一下所有的菜单项就可以明了应用程序所提供的大概功能,而且 ...

MapReduce(五)

MapReduce的的的多表关联查询

二。MapReduce的的多任务窜改的使用

MapReduce(五)的更多相关文章

随机推荐

热门专题