MapReduce(三) 典型场景（一）

一、mapreduce多job串联

1、需求

一个稍复杂点的处理逻辑往往需要多个 mapreduce 程序串联处理，多 job 的串联可以借助 mapreduce 框架的 JobControl 实现

2、实例

以下有两个 MapReduce 任务，分别是 Flow 的 SumMR 和 SortMR，其中有依赖关系： SumMR 的输出是 SortMR 的输入，所以 SortMR 的启动得在 SumMR 完成之后

public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();

Job jobsum = Job.getInstance(conf);

jobsum.setJarByClass(RunManyJobMR.class);

jobsum.setMapperClass(FlowSumMapper.class);

jobsum.setReducerClass(FlowSumReducer.class);

jobsum.setMapOutputKeyClass(Text.class);

jobsum.setMapOutputValueClass(Flow.class);

jobsum.setCombinerClass(FlowSumReducer.class);

jobsum.setOutputKeyClass(Text.class);

jobsum.setOutputValueClass(Text.class);

FileInputFormat.setInputPaths(jobsum, "d:/flow/input");

FileOutputFormat.setOutputPath(jobsum, new Path("d:/flow/output12"));

Job jobsort = Job.getInstance(conf);

jobsort.setJarByClass(RunManyJobMR.class);

jobsort.setMapperClass(FlowSortMapper.class);

jobsort.setReducerClass(FlowSortReducer.class);

jobsort.setMapOutputKeyClass(Flow.class);

jobsort.setMapOutputValueClass(Text.class);

jobsort.setOutputKeyClass(NullWritable.class);

jobsort.setOutputValueClass(Flow.class);

FileInputFormat.setInputPaths(jobsort, "d:/flow/output12");

FileOutputFormat.setOutputPath(jobsort, new Path("d:/flow/sortoutput12"));

ControlledJob sumcj = new ControlledJob(jobsum.getConfiguration());

ControlledJob sortcj = new ControlledJob(jobsort.getConfiguration());

sumcj.setJob(jobsum);

sortcj.setJob(jobsort);

// 设置作业依赖关系

sortcj.addDependingJob(sumcj);

JobControl jc = new JobControl("flow sum and sort");

jc.addJob(sumcj);

jc.addJob(sortcj);

Thread jobThread = new Thread(jc);

jobThread.start();

while(!jc.allFinished()){

Thread.sleep(500);

}

jc.stop();

}

二、topn算法实现——自定义GroupComparator

1、需求

在统计学生成绩的小项目中，现在有一个需求：
求出每个班参考学生成绩最高的学生的信息，班级，姓名和平均分

2、分析

（1）利用“班级和平均分”作为 key，可以将 map 阶段读取到的所有学生成绩数据按照班级和成绩排倒序，发送到 reduce
（2）在 reduce 端利用 GroupingComparator 将班级相同的 kv 聚合成组，然后取第一个即是最大值
3、实现

数据类似于

computer	huangxiaoming	85	86	41	75	93	42	85

computer	xuzheng	54	52	86	91	42

computer	huangbo	85	42	96	38

english	zhaobenshan	54	52	86	91	42	85	75

english	liuyifei	85	41	75	21	85	96	14

algorithm	liuyifei	75	85	62	48	54	96	15

computer	huangjiaju	85	75	86	85	85

english	liuyifei	76	95	86	74	68	74	48

　　第一步：先把分组和排序字段都综合到一个自定义对象里

package com.ghgj.mr.topn;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class ClazzScore implements WritableComparable<ClazzScore>{

private String clazz;

private Double score;

public String getClazz() {

return clazz;

}

public void setClazz(String clazz) {

this.clazz = clazz;

}

public Double getScore() {

return score;

}

public void setScore(Double score) {

this.score = score;

}

public ClazzScore(String clazz, Double score) {

super();

this.clazz = clazz;

this.score = score;

}

public ClazzScore() {

super();

// TODO Auto-generated constructor stub

}

@Override

public String toString() {

return clazz + "\t" + score;

}

@Override

public void write(DataOutput out) throws IOException {

out.writeUTF(clazz);

out.writeDouble(score);

}

@Override

public void readFields(DataInput in) throws IOException {

// TODO Auto-generated method stub

this.clazz = in.readUTF();

this.score = in.readDouble();

}

/**

* key 排序

*/

@Override

public int compareTo(ClazzScore cs) {

int it = cs.getClazz().compareTo(this.clazz);

if(it == 0){

return (int) (cs.getScore() - this.score);

}else{

return it;

}

}

}

　　第二步：编写排序之后的 ClazzScore 数据传入 ReduceTask 的分组规则

package com.ghgj.mr.topn;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

public class ClazzScoreGroupComparator extends WritableComparator{

ClazzScoreGroupComparator(){

super(ClazzScore.class, true);

}

/**

* 决定输入到 reduce 的数据的分组规则

*/

@Override

public int compare(WritableComparable a, WritableComparable b) {

// TODO Auto-generated method stub

ClazzScore cs1 = (ClazzScore)a;

ClazzScore cs2 = (ClazzScore)b;

int it = cs1.getClazz().compareTo(cs2.getClazz());

return it;

}

}

　　第三步：编写mapreduce程序

package com.ghgj.mr.topn;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

* TopN 问题

*/

public class ScoreTop1MR {

public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();

Job job = Job.getInstance(conf);

job.setJarByClass(ScoreTop1MR.class);

job.setMapperClass(ScoreTop1MRMapper.class);

job.setReducerClass(ScoreTop1MRReducer.class);

job.setOutputKeyClass(ClazzScore.class);

job.setOutputValueClass(DoubleWritable.class);

// 设置传入 reducer 的数据分组规则

job.setGroupingComparatorClass(ClazzScoreGroupComparator.class);

FileInputFormat.setInputPaths(job, "d:/score_all/input");

Path p = new Path("d:/score_all/output1");

FileSystem fs = FileSystem.newInstance(conf);

if(fs.exists(p)){

fs.delete(p, true);

}

FileOutputFormat.setOutputPath(job, p);

boolean status = job.waitForCompletion(true);

System.exit(status ? 0 : 1);

}

static class ScoreTop1MRMapper extends Mapper<LongWritable, Text, ClazzScore,

DoubleWritable>{

@Override

protected void map(LongWritable key, Text value, Context context) throws IOException,

InterruptedException {

String[] splits = value.toString().split("\t");

ClazzScore cs = new ClazzScore(splits[0], Double.parseDouble(splits[2]));

context.write(cs, new DoubleWritable(Double.parseDouble(splits[2])));

}

}

static class ScoreTop1MRReducer extends Reducer<ClazzScore, DoubleWritable, ClazzScore,

DoubleWritable>{

@Override

protected void reduce(ClazzScore cs, Iterable<DoubleWritable> scores, Context

context) throws IOException, InterruptedException {

// 按照规则，取每组的第一个就是 Top1

context.write(cs, scores.iterator().next());

}

}

}

三、Mapreduce全局计数器

1、需求

在实际生产代码中，常常需要将数据处理过程中遇到的不合规数据行进行全局计数，类似这种需求可以借助 MapReduce 框架中提供的全局计数器来实现
2、实例

以下是一个利用全局计数器来统计一个目录下所有文件出现的单词总数和总行数

package com.ghgj.mr.counter;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

	enum MyWordCounter{COUNT_LINES,COUNT_WORD}

//	enum Weekday{MONDAY, TUESDAY, WENSDAY, THURSDAY, FRIDAY, SATURDAY, SUNDAY}

	public static void main(String[] args) throws Exception {

		// 指定hdfs相关的参数

		Configuration conf = new Configuration();

		Job job = Job.getInstance(conf);

		// 设置jar包所在路径

		job.setJarByClass(WordCount.class);

		job.setMapperClass(WCMapper.class);

		job.setReducerClass(WCReducer.class);

		// 指定reducetask的输出类型

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(LongWritable.class);

		// 本地路径

		Path inputPath = new Path("d:/wordcount/input");

		Path outputPath = new Path("d:/wordcount/output");

		FileSystem fs = FileSystem.get(conf);

		if(fs.exists(outputPath)){

			fs.delete(outputPath, true);

		}

		FileInputFormat.setInputPaths(job, inputPath);

		FileOutputFormat.setOutputPath(job, outputPath);

		// 最后提交任务

		boolean waitForCompletion = job.waitForCompletion(true);

		System.exit(waitForCompletion?0:1);

	}

	private static class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

		@Override

		protected void map(LongWritable key, Text value, Context context)

				throws IOException, InterruptedException {

//			COUNT_LINES++;

			context.getCounter(MyWordCounter.COUNT_LINES).increment(1L);

			// 在此写maptask的业务代码

			String[] words = value.toString().split(" ");

			for(String word: words){

				context.write(new Text(word), new LongWritable(1));

				context.getCounter(MyWordCounter.COUNT_WORD).increment(1L);

			}

		}

	}

	private static class WCReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

		@Override

		protected void reduce(Text key, Iterable<LongWritable> values, Context context)

				throws IOException, InterruptedException {

			// 在此写reducetask的业务代码

			long sum = 0;

			for(LongWritable v: values){

				sum += v.get();

			}

			context.write(key, new LongWritable(sum));

		}

	}

}

　　或者：另一种情况

package com.ghgj.mr.counter;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class CounterWordCount {

enum CouterWordCountC{COUNT_WORDS, COUNT_LINES}

public static void main(String[] args) throws Exception {

// 指定 hdfs 相关的参数

Configuration conf = new Configuration();

Job job = Job.getInstance(conf);

// 设置 jar 包所在路径

job.setJarByClass(CounterWordCount.class);

job.setMapperClass(WCCounterMapper.class);

job.setMapOutputKeyClass(Text.class);

job.setMapOutputValueClass(LongWritable.class);

// 本地路径

Path inputPath = new Path("d:/wordcount/input");

FileInputFormat.setInputPaths(job, inputPath);

job.setNumReduceTasks(0);

Path outputPath = new Path("d:/wordcount/output");

FileSystem fs = FileSystem.get(conf);

if(fs.exists(outputPath)){

fs.delete(outputPath, true);

}

FileOutputFormat.setOutputPath(job, outputPath);

// 最后提交任务

boolean waitForCompletion = job.waitForCompletion(true);

System.exit(waitForCompletion?0:1);

}

private static class WCCounterMapper extends Mapper<LongWritable, Text, Text,

LongWritable>{

@Override

protected void map(LongWritable key, Text value, Context context)

throws IOException, InterruptedException {

// 统计行数，因为默认读取文本是逐行读取，所以 map 执行一次，行数+1

context.getCounter(CouterWordCountC.COUNT_LINES).increment(1L);

String[] words = value.toString().split(" ");

for(String word: words){

// 统计单词总数，遇见一个单词就+1

context.getCounter(CouterWordCountC.COUNT_WORDS).increment(1L);

}

}

}

}

MapReduce(三) 典型场景（一）的更多相关文章

Streamr助你掌控自己的数据(2)——三种整合数据至Streamr的典型场景
博客说明所有刊发内容均可转载但是需要注明出处. 三种整合数据至Streamr的典型场景本系列文档主要介绍怎么通过Streamr管理自己的DATA,整个系列包括三篇教程文档,分别是:教你5分钟上传数 ...
五大典型场景中的API自动化测试实践
一.API 测试的基本步骤通常来讲,API 测试的基本步骤主要包括以下三大步骤: 1.准备测试数据: 2.通过通用的或自己开发的API测试工具发起对被测API的request: 3.验证返回结果的r ...
iOS容易造成循环引用的三种场景
iOS容易造成循环引用的三种场景 ARC已经出来很久了,自动释放内存的确很方便,但是并非绝对安全绝对不会产生内存泄露.导致iOS对象无法按预期释放的一个无形杀手是--循环引用.循环引用可以简单理解为 ...
MapReduce(三)
MapReduce(三) MapReduce(三): 1.关于倒叙排序前10名 1)TreeMap根据key排序 2)TreeSet排序,传入一个对象,排序按照类中的compareTo方法排序 2.写 ...
SFUD+FAL+EasyFlash典型场景需求分析，并记一次实操记录
SFUD+FAL+EasyFlash典型场景需求分析:用整个flash存储数据,上千条数据,读取得时候用easyflash很慢,估计要检索整个flash太慢了. 改进方法:分区检索. 1存数据时,根据 ...
SparkSQL中产生笛卡尔积的几种典型场景以及处理策略
[前言:如果你经常使用Spark SQL进行数据的处理分析,那么对笛卡尔积的危害性一定不陌生,比如大量占用集群资源导致其他任务无法正常执行,甚至导致节点宕机.那么都有哪些情况会产生笛卡尔积,以及如何事 ...
OC与Swift混编，三种场景的实现方式
多语言并存时期,混编成为一种必须的方式 ,在多场影中实现OC和Swift语言的并存原来是如此简单第一种场景,App中实现混编创建桥接文件*.h 新建一个桥接文件,New File 选择 Heade ...
MapReduce(四) 典型编程场景（二）
一.MapJoin-DistributedCache 应用 1.mapreduce join 介绍在各种实际业务场景中,按照某个关键字对两份数据进行连接是非常常见的.如果两份数据都比较小,那么可以 ...
从0开始学Java——JSP和Servlet——jsp转servlet出错的三个典型场景
由于jsp终究是要转换为servlet的java文件,然后再编译为.class文件,最后才执行,那么在这过程的任何一个步骤都可能有问题,主要包括三个方面,下面逐一分析: 一.JSP转换为Servlet ...

随机推荐

Intellij IDEA破解激活
本文使用破解补丁激活Intellij IDEA 第一步:下载破解补丁(http://idea.lanyus.com/) 第二步:将下载好的补丁放置磁盘的任意位置,下面是我放置的位置第三步:打开Int ...
python4 - 字典
字典定义:字典是无序的,它不能通过偏移来存取,只能通过键来存取. 特点:内部没有顺序,通过键来读取内容,可嵌套,方便我们组织多种数据结构,并且可以原地修改里面的内容,属于可变类型. 创建字典.{}, ...
selenium自动化之js处理滚动条和元素聚焦
selenium并不是万能的,有时候页面上操作无法实现的,这时候就需要借助JS来完成了. 当我们页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接操作的,会报元素不可见异常的.这时候需要借助滚动 ...
学习笔记之glog的使用
下载源码,使用cmake编译,最后得到了32位的静态库 glog.lib 使用库时要注意添加以下预定义: GLOG_NO_ABBREVIATED_SEVERITIES; GOOGLE_GLOG_DLL ...
网络通讯中 bind函数的作用
面向连接的网络应用程序分为客户端和服务器端.服务器端的执行流程一般为4步,客户端程序相对简单,一般需要两个步骤. 服务器端执行流程4步如下: (1)调用socket函数,建立一个套接字,该套接字用于接 ...
Python Requests库入门——应用实例-百度、360搜索关键词提交
百度的关键词接口: http://www.baidu.com/s?wd=keyword 360的关键词接口: http://www.so.com/s?q=keyword keyword就是需要查找的关 ...
Scrum立会报告+燃尽图（十一月十七日总第二十五次）：设计调查问卷；修复上一阶段bug
此作业要求参见:https://edu.cnblogs.com/campus/nenu/2018fall/homework/2284 项目地址:https://git.coding.net/zhang ...
Bate版本控制报告
报告beta阶段2周中,项目的版本控制情况,不包括未在coding.net的部分. 包括不限于:check in (不是push)次数; 总词数为29次 check in log(时间.人员.mess ...
关于算法的时间复杂度O(f(n))
(一)算法时间复杂度定义: 在进行算法分析时,语句总的执行次数T(n)是关于问题规模n的函数,进而分析T(n)随n的变化情况并确定T(n)的数量级.算法的时间复杂度,也就是算法的时间量度,记作:T(n ...
“我爱淘”第二冲刺阶段Scrum站立会议8
完成任务: 完成学院分类的点击查看书籍功能,可以点击书的条目查看书的详细信息.完善界面显示,实现购买功能,优化提示,购买后就将该书从数据库中删去. 计划任务: 将书的详细信息进行完善,并且可以点击收藏 ...

MapReduce(三) 典型场景（一）

MapReduce(三) 典型场景（一）的更多相关文章

随机推荐

热门专题