Hadoop: MapReduce2多个job串行处理

复杂的MapReduce处理中，往往需要将复杂的处理过程，分解成多个简单的Job来执行，第1个Job的输出做为第2个Job的输入，相互之间有一定依赖关系。以上一篇中的求平均数为例，可以分解成三个步骤：

1. 求Sum

2. 求Count

3. 计算平均数

每1个步骤看成一个Job，其中Job3必须等待Job1、Job2完成，并将Job1、Job2的输出结果做为输入，下面的代码演示了如何将这3个Job串起来

 package yjmyzz.mr.job.link;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.DoubleWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import yjmyzz.util.HDFSUtil;

 import java.io.IOException;

 public class Avg2 {

     private static final Text TEXT_SUM = new Text("SUM");

     private static final Text TEXT_COUNT = new Text("COUNT");

     private static final Text TEXT_AVG = new Text("AVG");

     //计算Sum

     public static class SumMapper

             extends Mapper<LongWritable, Text, Text, LongWritable> {

         public long sum = 0;

         public void map(LongWritable key, Text value, Context context)

                 throws IOException, InterruptedException {

             sum += Long.parseLong(value.toString());

         }

         protected void cleanup(Context context) throws IOException, InterruptedException {

             context.write(TEXT_SUM, new LongWritable(sum));

         }

     }

     public static class SumReducer extends Reducer<Text, LongWritable, Text, LongWritable> {

         public long sum = 0;

         public void reduce(Text key, Iterable<LongWritable> values, Context context)

                 throws IOException, InterruptedException {

             for (LongWritable v : values) {

                 sum += v.get();

             }

             context.write(TEXT_SUM, new LongWritable(sum));

         }

     }

     //计算Count

     public static class CountMapper

             extends Mapper<LongWritable, Text, Text, LongWritable> {

         public long count = 0;

         public void map(LongWritable key, Text value, Context context)

                 throws IOException, InterruptedException {

             count += 1;

         }

         protected void cleanup(Context context) throws IOException, InterruptedException {

             context.write(TEXT_COUNT, new LongWritable(count));

         }

     }

     public static class CountReducer extends Reducer<Text, LongWritable, Text, LongWritable> {

         public long count = 0;

         public void reduce(Text key, Iterable<LongWritable> values, Context context)

                 throws IOException, InterruptedException {

             for (LongWritable v : values) {

                 count += v.get();

             }

             context.write(TEXT_COUNT, new LongWritable(count));

         }

     }

     //计算Avg

     public static class AvgMapper

             extends Mapper<LongWritable, Text, LongWritable, LongWritable> {

         public long count = 0;

         public long sum = 0;

         public void map(LongWritable key, Text value, Context context)

                 throws IOException, InterruptedException {

             String[] v = value.toString().split("\t");

             if (v[0].equals("COUNT")) {

                 count = Long.parseLong(v[1]);

             } else if (v[0].equals("SUM")) {

                 sum = Long.parseLong(v[1]);

             }

         }

         protected void cleanup(Context context) throws IOException, InterruptedException {

             context.write(new LongWritable(sum), new LongWritable(count));

         }

     }

     public static class AvgReducer extends Reducer<LongWritable, LongWritable, Text, DoubleWritable> {

         public long sum = 0;

         public long count = 0;

         public void reduce(LongWritable key, Iterable<LongWritable> values, Context context)

                 throws IOException, InterruptedException {

             sum += key.get();

             for (LongWritable v : values) {

                 count += v.get();

             }

         }

         protected void cleanup(Context context) throws IOException, InterruptedException {

             context.write(TEXT_AVG, new DoubleWritable(new Double(sum) / count));

         }

     }

     public static void main(String[] args) throws Exception {

         Configuration conf = new Configuration();

         String inputPath = "/input/duplicate.txt";

         String maxOutputPath = "/output/max/";

         String countOutputPath = "/output/count/";

         String avgOutputPath = "/output/avg/";

         //删除输出目录(可选,省得多次运行时,总是报OUTPUT目录已存在)

         HDFSUtil.deleteFile(conf, maxOutputPath);

         HDFSUtil.deleteFile(conf, countOutputPath);

         HDFSUtil.deleteFile(conf, avgOutputPath);

         Job job1 = Job.getInstance(conf, "Sum");

         job1.setJarByClass(Avg2.class);

         job1.setMapperClass(SumMapper.class);

         job1.setCombinerClass(SumReducer.class);

         job1.setReducerClass(SumReducer.class);

         job1.setOutputKeyClass(Text.class);

         job1.setOutputValueClass(LongWritable.class);

         FileInputFormat.addInputPath(job1, new Path(inputPath));

         FileOutputFormat.setOutputPath(job1, new Path(maxOutputPath));

         Job job2 = Job.getInstance(conf, "Count");

         job2.setJarByClass(Avg2.class);

         job2.setMapperClass(CountMapper.class);

         job2.setCombinerClass(CountReducer.class);

         job2.setReducerClass(CountReducer.class);

         job2.setOutputKeyClass(Text.class);

         job2.setOutputValueClass(LongWritable.class);

         FileInputFormat.addInputPath(job2, new Path(inputPath));

         FileOutputFormat.setOutputPath(job2, new Path(countOutputPath));

         Job job3 = Job.getInstance(conf, "Average");

         job3.setJarByClass(Avg2.class);

         job3.setMapperClass(AvgMapper.class);

         job3.setReducerClass(AvgReducer.class);

         job3.setMapOutputKeyClass(LongWritable.class);

         job3.setMapOutputValueClass(LongWritable.class);

         job3.setOutputKeyClass(Text.class);

         job3.setOutputValueClass(DoubleWritable.class);

         //将job1及job2的输出为做job3的输入

         FileInputFormat.addInputPath(job3, new Path(maxOutputPath));

         FileInputFormat.addInputPath(job3, new Path(countOutputPath));

         FileOutputFormat.setOutputPath(job3, new Path(avgOutputPath));

         //提交job1及job2,并等待完成

         if (job1.waitForCompletion(true) && job2.waitForCompletion(true)) {

             System.exit(job3.waitForCompletion(true) ? 0 : 1);

         }

     }

 }

输入文本在上一篇可以找到，上面这段代码的主要思路：

1. Sum和Count均采用相同的输入/input/duplicate.txt，然后将各自的处理结果分别输出到/output/max/及/output/count/下

2. Avg从/output/max及/output/count获取结果做为输入，然后根据Key值不同，拿到sum和count的值，最终计算并输出到/output/avg/下

Hadoop: MapReduce2多个job串行处理的更多相关文章

Hadoop基础-Protocol Buffers串行化与反串行化
Hadoop基础-Protocol Buffers串行化与反串行化作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们之前学习过很多种序列化文件格式,比如python中的pickl ...
Hadoop基础-Apache Avro串行化的与反串行化
Hadoop基础-Apache Avro串行化的与反串行化作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Apache Avro简介 1>.Apache Avro的来源 ...
实例理解mapreduce任务的串行运行过程
一.准备: eclipse,hadoop集群注意:为了方便测试和修改,我用的是 windows 连接hadoop集群,这样在windows 下直接就能够执行 mapreduce 任务,方便程序调试. ...
JQuery使用deferreds串行多个ajax请求
使用JQuery对多个ajax请求串行执行. HTML代码: <a href="#">Click me!</a> <div></div&g ...
iOS：GCD理解1（同步-异步、串行-并行）
1.并行-异步(ST1与ST2抢占资源) 1-1).获取并行(全局)队列 ,DISPATCH_QUEUE_PRIORITY_DEFAULT 为默认优先级. dispatch_queue_t queu ...
【Java EE 学习 72 下】【数据采集系统第四天】【移动/复制页分析】【使用串行化技术实现深度复制】
一.移动.复制页的逻辑实现移动.复制页的功能是在设计调查页面的时候需要实现的功能.规则是如果在同一个调查中的话就是移动,如果是在不同调查中的就是复制. 无论是移动还是复制,都需要注意一个问题,那就是 ...
大叔也说并行和串行`性能提升N倍(N由操作系统位数和cpu核数决定)
返回目录并行是.net4.5主打的技术,同时被封装到了System.Threading.Tasks命名空间下,对外提供了静态类Parallel,我们可以直接使用它的静态方法,它可以并行一个委托数组, ...
JVM_垃圾回收串行、并行、并发算法（总结）
一.串行 JDK1.5前的默认算法缺点是只有一个线程,执行垃圾回收时程序停止的时间比较长语法 -XX:+UseSerialGC 新生代.老年代使用串行回收新生代复制算法老年代标记-压缩示例图 ...
ios--进程/多线程/同步任务/异步任务/串行队列/并行队列（对比分析）
现在先说两个基本的概念,啥是进程,啥是线程,啥又是多线程;先把这两个总是给弄清再讲下面的进程:正在进行的程序,我们就叫它进程. 线程:线程就是进程中的一个独立的执行路径.这句话怎么理解呢! 一个程序 ...

随机推荐

jar 命令打包装class文件的文件夹
由于将spring源代码导入到eclipse后,缺少jar包, 所以从maven仓库中下载spring发布的spring-core jar包. 为了方便理解目录结构,使用tree命令: tr ...
2.2 CMMI2级——项目计划(Project Planning)
大家都明白这样的一个道理:做事情要有计划,有一个不成熟的计划总比没有计划要好,软件开发这么复杂的活动,更加需要计划.那么应该怎样做好一个计划呢? 如果对项目的范围.规模.性质.任务.工作量.费用等都不 ...
Eclipse下使用SVN版本控制
作者:朱先忠编译转自天极[url]http://dev.yesky.com/356/2578856.shtml[/url] 简单介绍一些基本操作1.同步在Eclipse下,右击你要同步的工程-tea ...
Sql Server之旅——第八站复合索引和include索引到底有多大区别？
周末终于搬进出租房了,装了宽带....才发现没网的日子...那是一个怎样的与世隔绝呀...再也受不了那样的日子了....好了,既然网安上去了,还得继续我的这个系列. 索引和锁,这两个主题对我们开发工 ...
Visual Studio 2012中文旗舰版（序列号和下载地址）
序列号:YKCW6-BPFPF-BT8C9-7DCTH-QXGWC 链接: http://pan.baidu.com/s/1pLGhDjl 密码: 3udq
layout 布局、手风琴accordion、选项卡tabs
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
Sql server之sql注入篇
SQL Injection 关于sql注入的危害在这里就不多做介绍了,相信大家也知道其中的厉害关系.这里有一些sql注入的事件大家感兴趣可以看一下防范sql注入的方法无非有以下几种: 1.使用类型安 ...
【转】RHadoop实践系列之一:Hadoop环境搭建
RHadoop实践系列之一:Hadoop环境搭建 RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析.Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来 ...
[原]openstack-kilo--issue(七)：虚拟机怎么通外网，外网怎么ping通虚拟机
=====问题======= 虚拟机可以ping通外网,外网能ping通虚拟机但是收不到reply 这个问题本人遇到有两种情况: 1.安装完整openstack-kilo后,在route中和虚拟机中抓 ...
Qt 怎么添加图片文件？
1.新建一个.qrc的文件 2.起个.qrc的文件名 3.完成后,添加图片文件 4.如图就好了.

Hadoop: MapReduce2多个job串行处理

Hadoop: MapReduce2多个job串行处理的更多相关文章

随机推荐

热门专题