[Hadoop in Action] 第5章高阶MapReduce

链接多个MapReduce作业
执行多个数据集的联结
生成Bloom filter

1、链接MapReduce作业

[顺序链接MapReduce作业]

mapreduce-1 | mapreduce-2 | mapreduce-3 | ...

[具有复杂依赖的MapReduce链接]

有时，在复杂数据处理任务中的子任务并不是按顺序运行的，因此它们的MapReduce作业不能按线性方式链接。例如，mapreduce1处理一个数据集，mapreduce2独立处理另一个数据集，而第3个作业mapreduce3，对前两个作业的输出结果做内部联结。

Hadoop有一种简化机制，通过Job和JobControl类来管理这种（非线性）作业之间的依赖。Job对象是MapReduce作业的表现形式。Job对象的实例化可通过传递一个JobConf对象到作业的构造函数中来实现。除了要保持作业的配置信息外，Job还通过设定addDependingJob()方法维护作业的依赖关系。对于Job对象x和y，x.addDependingJob(y)意味着x在y完成之前不会启动。鉴于Job对象存储着配置和依赖信息，JobControl对象会负责管理并监视作业的执行。通过addJob()方法，你可以为JobControl对象添加作业。当所有作业和依赖关系添加完成后，调用JobControl的run()方法，生成一个线程来提交作业并监视其执行。JobControl有诸如allFinished()和getFailedJobs()这样的方法来跟踪批处理中各个作业的执行。

[预处理和后处理阶段的链接]

Hadoop在版本0.19.0中引入了ChainMapper和ChainReducer类来简化预处理和后处理的构成。作业按序执行多个mapper来预处理数据，并在reducer之后可选地按序执行多个mapper来做数据的后处理。这一机制的优点在于可以将预处理和后处理步骤写为标准的mapper，逐个运行它们，可以在ChainMapper和ChainReducer中调用addMapper()方法来分别组合预处理和后处理的步骤。全部预处理和后处理步骤在单一的作业中运行，不会生成中间文件，这大大减少了I/O操作。

例如，有4个mapper（Map1，Map2，Map3和Map4）和一个reducer（Reduce），它们被链接为单个MapReduce作业，顺序如下：Map1 ｜ Map2 ｜ Reduce ｜ Map3 ｜ Map4

这个组合中，可以把Map2和Reduce视为MapReduce作业的核心，在mapper和reducer之间使用标准的分区和洗牌。可以把Map1视为前处理步骤，而Map3和Map4作为后处理步骤。我们可以使用driver设定这个mapper和reducer序列的构成：

代码清单用于链接MapReduce作业中mapper的driver

 Configuration conf = getConf();

 JobConf job = new JobConf(conf);

 job.setJobName("ChainJob");

 job.setInputFormat(TextInputFormat.class);

 job.setOutputFormat(TextOutputFormat.class);

 FileInputFormat.setInputPaths(job, in);

 FileOutputFormat.setOutputPath(job, out);

 JobConf map1Conf = new JobConf(false);

 ChainMapper.addMapper(job,

                       Map1.class,

                       LongWritable.class,

                       Text.class,

                       Text.class,

                       Text.class,

                       true,

                       map1Conf);

 JobConf map2Conf = new JobConf(false);

 ChainMapper.addMapper(job,

                       Map2.class,

                       Text.class,

                       Text.class,

                       LongWritable.class,

                       Text.class,

                       true,

                       map2Conf);

 JobConf reduceConf = new JobConf(false);

 ChainReducer.setReducer(job,

                         Reduce.class,

                         LongWritable.class,

                         Text.class,

                         Text.class,

                         Text.class,

                         true,

                         reduceConf);

 JobConf map3Conf = new JobConf(false);

 ChainReducer.addMapper(job,

                        Map3.class,

                        Text.class,

                        Text.class,

                        LongWritable.class,

                        Text.class,

                        true,

                        map3Conf);

 JobConf map4Conf = new JobConf(false);

 ChainReducer.addMapper(job,

                        Map4.class,

                        LongWritable.class,

                        Text.class,

                        LongWritable.class,

                        Text.class,

                        true,

                        map4Conf);

 JobClient.runJob(job);

driver首选会设置全局的JobConf对象，包含作业名、输入路径及输出路径等。它一次性添加这个由5个步骤链接在一起的作业，以步骤执行先后为序。它用ChainMapper.addMapper()添加位于Reduce之前的所有步骤。用静态的ChainReducer.setReducer()方法设置reducer。再用ChainReducer.addMapper()方法添加后续的步骤。全局JobConf对象经历所有的5个add＊方法。此外，每个mapper和reducer都有一个本地JobConf对象（map1Conf、map2Conf、map3Conf、map4Conf和reduceConf），其优先级在配置各自mapper/reducer时高于全局的对象。建议本地JobConf对象采用一个新的JobConf对象，且在初始化时不设默认值——new JobConf(false)。

让我们通过ChainMapper.addMapper()方法的签名来详细了解如何一步步地链接作业，其中ChainReducer.setReducer()的签名和功能与ChainReducer.addMapper()类似：

public static <k1, v1, k2, v2> void

addMapper(JobConf job,

Class <? extends Mapper<k1, v1, k2, v2>> class,

Class <? extends k1> inputKeyClass,

Class <? extends v1> inputValueClass,

Class <? extends k2> outputKeyClass,

Class <? extends v2> outputValueClass,

boolean byValue,

JobConf mapperConf)

该方法有8个参数，第一个和最后一个分别为全局和本地的JobConf对象。第二个参数klass是Mapper类，负责数据处理。对于byValue这个参数，如果确信map1的map()方法在调用OutoutCollector.collect(K k, V v)之后不再使用k和v的内容，或者map2并不改变k和v在其上的输入值，则可以通过设定buValue为false来获取一定的性能提升；如果对Mapper的内部代码不太了解，则可以通过设定byValue为true，确保Mapper会按预期的方式工作。余下的4个参数inputKeyClass、inputValueClass、outputKeyClass和outputValueClass是这个Mapper类中输入/输出类的类型。

2、联结不同来源数据

[Reduce侧的联结]

首先mapper接收的数据来自两个文件，Customers及Orders；
在map()封装输入的每个记录后，就执行MapReduce标准的分区、洗牌和排序操作；
reduce()函数接收输入数据，并对其值进行完全交叉乘积；
交叉乘积得到的每个合并结果被送入函数conbine()。

Hadoop有一个名为datajoin的contrib软件包，在hadoop中它是一个用作数据联结的通用框架，它的jar文件位于contrib/datajoin/hadoop-*-datajoin.jar。hadoop的datajoin软件包有3个可供继承和具体化的抽象类：DataJoinMapperBase、DataJoinReducerBase和TaggedMapOutput。顾名思义，MapClass会扩展DataJoinMapperBase，而Reduce类会扩展DataJoinReducerBase。Datajoin软件包已经分别在这些基类上实现了map()和reduce方法，可用于执行联结数据流。

代码清单来自两个reduce侧连接数据的内联结

 import java.io.DataInput;

 import java.io.DataOutput;

 import java.io.IOException;

 import java.util.Iterator;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.conf.Configured;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.io.Writable;

 import org.apache.hadoop.mapred.FileInputFormat;

 import org.apache.hadoop.mapred.FileOutputFormat;

 import org.apache.hadoop.mapred.JobClient;

 import org.apache.hadoop.mapred.JobConf;

 import org.apache.hadoop.mapred.KeyValueTextInputFormat;

 import org.apache.hadoop.mapred.MapReduceBase;

 import org.apache.hadoop.mapred.Mapper;

 import org.apache.hadoop.mapred.OutputCollector;

 import org.apache.hadoop.mapred.Reducer;

 import org.apache.hadoop.mapred.Reporter;

 import org.apache.hadoop.mapred.TextInputFormat;

 import org.apache.hadoop.mapred.TextOutputFormat;

 import org.apache.hadoop.util.Tool;

 import org.apache.hadoop.util.ToolRunner;

 import org.apache.hadoop.contrib.utils.join.DataJoinMapperBase;

 import org.apache.hadoop.contrib.utils.join.DataJoinReducerBase;

 import org.apache.hadoop.contrib.utils.join.TaggedMapOutput;

 public class DataJoin extends Configured implements Tool {

     public static class MapClass extends DataJoinMapperBase {

         protected Text generateInputTag(String inputFile) {

             String datasource = inputFile.split("-")[0];

             return new Text(datasource);

         }

         protected Text generateGroupKey(TaggedMapOutput aRecord) {

             String line = ((Text) aRecord.getData()).toString();

             String[] tokens = line.split(",");

             String groupKey = tokens[0];

             return new Text(groupKey);

         }

         protected TaggedMapOutput generateTaggedMapOutput(Object value) {

             TaggedWritable retv = new TaggedWritable((Text) value);

             retv.setTag(this.inputTag);

             return retv;

         }

     }

     public static class Reduce extends DataJoinReducerBase {

         protected TaggedMapOutput combine(Object[] tags, Object[] values) {

             if (tags.length < 2) return null;

             String joinedStr = "";

             for (int i=0; i<values.length; i++) {

                 if (i > 0) joinedStr += ",";

                 TaggedWritable tw = (TaggedWritable) values[i];

                 String line = ((Text) tw.getData()).toString();

                 String[] tokens = line.split(",", 2);

                 joinedStr += tokens[1];

             }

             TaggedWritable retv = new TaggedWritable(new Text(joinedStr));

             retv.setTag((Text) tags[0]);

             return retv;

         }

     }

     public static class TaggedWritable extends TaggedMapOutput {

         private Writable data;

         public TaggedWritable(Writable data) {

             this.tag = new Text("");

             this.data = data;

         }

         public Writable getData() {

             return data;

         }

         public void write(DataOutput out) throws IOException {

             this.tag.write(out);

             this.data.write(out);

         }

         public void readFields(DataInput in) throws IOException {

             this.tag.readFields(in);

             this.data.readFields(in);

         }

     }

     public int run(String[] args) throws Exception {

         Configuration conf = getConf();

         JobConf job = new JobConf(conf, DataJoin.class);

         Path in = new Path(args[0]);

         Path out = new Path(args[1]);

         FileInputFormat.setInputPaths(job, in);

         FileOutputFormat.setOutputPath(job, out);

         job.setJobName("DataJoin");

         job.setMapperClass(MapClass.class);

         job.setReducerClass(Reduce.class);

         job.setInputFormat(TextInputFormat.class);

         job.setOutputFormat(TextOutputFormat.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(TaggedWritable.class);

         job.set("mapred.textoutputformat.separator", ",");

         JobClient.runJob(job);

         return 0;

     }

     public static void main(String[] args) throws Exception {

         int res = ToolRunner.run(new Configuration(),

                                  new DataJoin(),

                                  args);

         System.exit(res);

     }

 }

[转载请注明] http://www.cnblogs.com/zhengrunjian/

[Hadoop in Action] 第5章高阶MapReduce的更多相关文章

[Hadoop in Action] 第7章细则手册
向任务传递定制参数获取任务待定的信息生成多个输出与关系数据库交互让输出做全局排序 1.向任务传递作业定制的参数在编写Mapper和Reducer时,通常会想让一些地方可以配 ...
[Hadoop in Action] 第6章编程实践
Hadoop程序开发的独门绝技在本地,伪分布和全分布模式下调试程序程序输出的完整性检查和回归测试日志和监控性能调优 1.开发MapReduce程序 [本地模式] 本地模式 ...
[Hadoop in Action] 第4章编写MapReduce基础程序
基于hadoop的专利数据处理示例 MapReduce程序框架用于计数统计的MapReduce基础程序支持用脚本语言编写MapReduce程序的hadoop流式API 用于提升性能的Combine ...
[hadoop in Action] 第3章 Hadoop组件
管理HDFS中的文件分析MapReduce框架中的组件读写输入输出数据 1.HDFS文件操作［命令行方式］ Hadoop的文件命令采取的形式为: hadoop fs -cmd < ...
[Hadoop in Action] 第2章初识Hadoop
Hadoop的结构组成安装Hadoop及其3种工作模式:单机.伪分布和全分布用于监控Hadoop安装的Web工具 1.Hadoop的构造模块 (1)NameNode(名字节点) ...
[Hadoop in Action] 第1章 Hadoop简介
编写可扩展.分布式的数据密集型程序和基础知识理解Hadoop和MapReduce 编写和运行一个基本的MapReduce程序 1.什么是Hadoop Hadoop是一个开源的框架,可编写和运 ...
Cloudera Hadoop 5& Hadoop高阶管理及调优课程(CDH5,Hadoop2.0,HA,安全,管理,调优)
1.课程环境本课程涉及的技术产品及相关版本: 技术版本 Linux CentOS 6.5 Java 1.7 Hadoop2.0 2.6.0 Hadoop1.0 1.2.1 Zookeeper 3. ...
《JavaScript设计模式与开发实践》——第3章闭包和高阶函数
闭包变量的作用域和生存周期密切相关高阶函数函数可以作为参数被传递函数可以作为返回值输出
Kotlin——高级篇（二）：高阶函数详解与标准的高阶函数使用
在上面一个章节中,详细的讲解了Kotlin中关于Lambda表达式的语法以及运用,如果还您对其还不甚理解,请参见Kotlin--高级篇(一):Lambda表达式详解.在这篇文章中,多次提到了Kotli ...

随机推荐

wepack+sass+vue 入门教程（三）
十一.安装sass文件转换为css需要的相关依赖包 npm install --save-dev sass-loader style-loader css-loader loader的作用是辅助web ...
ExtJS 4.2 介绍
本篇介绍ExtJS相关知识,是以ExtJS4.2.1版本为基础进行说明,包括:ExtJS的特点.MVC模式.4.2.1GPL版本资源的下载和说明以及4种主题的演示. 目录 1. 介绍 1.1 说明 1 ...
jQuery学习之路（8）- 表单验证插件-Validation
▓▓▓▓▓▓ 大致介绍 jQuery Validate 插件为表单提供了强大的验证功能,让客户端表单验证变得更简单,同时提供了大量的定制选项,满足应用程序各种需求.该插件捆绑了一套有用的验证方法,包括 ...
javascript之活灵活现的Array
前言就如同标题一样,这篇文章将会灵活的运行Array对象的一些方法来实现看上去较复杂的应用. 大家都知道Array实例有这四个方法:push.pop.shift.unshift.大家也都知道 pus ...
Ajax实现原理，代码封装
都知道实现页面的异步操作需要使用Ajax,那么Ajax到是怎么实现异步操作的呢? 首先需要认识一个对象 --> XMLHttpRequest 对象 --> Ajax的核心.它有许多的属性和 ...
初识的Spring Mvc-----原理
一.Spring Mvc简介 Spring Mvc(Spring Web Mvc) 属于表现层的框架. 二.Spring结构图 Spring Mvc是Spring框架里面web模块的一部分,是在Spr ...
《动手实现一个网页加载进度loading》
loading随处可见,比如一个app经常会有下拉刷新,上拉加载的功能,在刷新和加载的过程中为了让用户感知到 load 的过程,我们会使用一些过渡动画来表达.最常见的比如"转圈圈" ...
图解CSS3制作圆环形进度条的实例教程
圆环形进度条制作的基本思想还是画出基本的弧线图形,然后CSS3中我们可以控制其旋转来串联基本图形,制造出部分消失的效果,下面就来带大家学习图解CSS3制作圆环形进度条的实例教程首先,当有人说你能不能 ...
电信计费业务：预后融合OCS到底应该实扣还是虚扣?
引入OCS的初衷之一是为了让计费系统能够参与到用户的通讯控制中来,也就是所谓的实时信控.用户在没有余额时,通讯就会被停止,不会造成"天价欠费 ",一方面保障用户的利益,一方面也保障 ...
【从零开始学BPM，Day2】默认表单开发
[课程主题]主题:5天,一起从零开始学习BPM[课程形式]1.为期5天的短任务学习2.每天观看一个视频,视频学习时间自由安排. [第二天课程] Step 1 软件下载:H3 BPM10.0全开放免费下 ...

[Hadoop in Action] 第5章 高阶MapReduce

[Hadoop in Action] 第5章 高阶MapReduce的更多相关文章

随机推荐

热门专题

[Hadoop in Action] 第5章高阶MapReduce

[Hadoop in Action] 第5章高阶MapReduce的更多相关文章