[大牛翻译系列]Hadoop（21）附录D.1 优化后的重分区框架

附录D.1 优化后的重分区框架

Hadoop社区连接包需要将每个键的所有值都读取到内存中。如何才能在reduce端的连接减少内存开销呢？本文提供的优化中，只需要缓存较小的数据集，然后在连接中遍历较大数据集中的数据。这个方法中还包括针对map的输出数据的次排序，那么reducer先接收到较小的数据集，然后接收到较大的数据集。图D.1是这个过程的流程图。

图D.2是实现的类图。类图中包含两个部分，一个通用框架和一些类的实现样例。

连接框架

我们以和Hadoop社区连接包的近似的风格编写连接的代码。目标是创建可以处理任意数据集的通用重分区机制。为简洁起见，我们重点说明主要部分。

首先是OptimizedDataJoinMapperBase类。这个类的作用是辨认出较小的数据集，并生成输出键和输出值。Configure方法在mapper创建时被调用。Configure方法的作用之一是标识每一个数据集，让reducer可以区分数据的源数据集。另一个作用是辨认当前的输入数据是否是较小的数据集。

 protected abstract Text generateInputTag(String inputFile);

 protected abstract boolean isInputSmaller(String inputFile);

 public void configure(JobConf job) {

     this.inputFile = job.get("map.input.file");

     this.inputTag = generateInputTag(this.inputFile);

     if(isInputSmaller(this.inputFile)) {

         smaller = new BooleanWritable(true);

         outputKey.setOrder(0);

     } else {

         smaller = new BooleanWritable(false);

         outputKey.setOrder(1);

     }

 }

Map方法首先调用自定义的方法 (generateTaggedMapOutput) 来生成OutputValue对象。这个对象包含了在连接中需要使用的值（也可能包含了最终输出的值），和一个标识较大或较小数据集的布尔值。如果map方法可以调用自定义的方法 (generateGroupKey) 来得到可以在连接中使用的键，那么这个键就作为map的输出键。

 protected abstract OptimizedTaggedMapOutput generateTaggedMapOutput(Object value);

 protected abstract String generateGroupKey(Object key, OptimizedTaggedMapOutput aRecord);

 public void map(Object key, Object value, OutputCollector output, Reporter reporter)

     throws IOException {

     OptimizedTaggedMapOutput aRecord = generateTaggedMapOutput(value);

     if (aRecord == null) {

         return;

     }

     aRecord.setSmaller(smaller);

     String groupKey = generateGroupKey(aRecord);

     if (groupKey == null) {

         return;

     }

     outputKey.setKey(groupKey);

     output.collect(outputKey, aRecord);

 }

图D.3 说明了map输出的组合键（composite 可以）和组合值。次排序将会根据连接键（join key）进行分区，并用整个组合键来进行排序。组合键包括一个标识源数据集（较大或较小）的整形值，因此可以根据这个整形值来保证较小源数据集的值先于较大源数据的值被reduce接收。

下一步是深入reduce。此前已经可以保证较小源数据集的值将会先于较大源数据集的值被接收。这里就可以将所有的较小源数据集的值放到缓存中。在开始接收较大源数据集的值的时候，就开始和缓存中的值做连接操作。

 public void reduce(Object key, Iterator values, OutputCollector output, Reporter reporter)

     throws IOException { 

     CompositeKey k = (CompositeKey) key;

     List<OptimizedTaggedMapOutput> smaller = new ArrayList<OptimizedTaggedMapOutput>();

     while (values.hasNext()) {

         Object value = values.next();

         OptimizedTaggedMapOutput cloned =((OptimizedTaggedMapOutput) value).clone(job);

         if (cloned.isSmaller().get()) {

             smaller.add(cloned);

         } else {

             joinAndCollect(k, smaller, cloned, output, reporter);

         }

     }

 }

方法joinAndCollect包含了两个数据集的值，并输出它们。

 protected abstract OptimizedTaggedMapOutput combine(

                         String key,

                         OptimizedTaggedMapOutput value1,

                         OptimizedTaggedMapOutput value2);

 private void joinAndCollect(CompositeKey key,

                             List<OptimizedTaggedMapOutput> smaller,

                             OptimizedTaggedMapOutput value,

                             OutputCollector output,

                             Reporter reporter)

     throws IOException {

     if (smaller.size() < 1) {

         OptimizedTaggedMapOutput combined = combine(key.getKey(), null, value);

         collect(key, combined, output, reporter);

     } else {

         for (OptimizedTaggedMapOutput small : smaller) {

             OptimizedTaggedMapOutput combined = combine(key.getKey(), small, value);

             collect(key, combined, output, reporter);

         }

     }

 }

这些就是这个框架的主要内容。第4章介绍能如何使用这个框架。

[大牛翻译系列]Hadoop（21）附录D.1 优化后的重分区框架的更多相关文章

[大牛翻译系列]Hadoop 翻译文章索引
原书章节原书章节题目翻译文章序号翻译文章题目链接 4.1 Joining Hadoop(1) MapReduce 连接:重分区连接(Repartition join) http://www.c ...
[大牛翻译系列]Hadoop（1）MapReduce 连接：重分区连接（Repartition join）
4.1 连接(Join) 连接是关系运算,可以用于合并关系(relation).对于数据库中的表连接操作,可能已经广为人知了.在MapReduce中,连接可以用于合并两个或多个数据集.例如,用户基本信 ...
[大牛翻译系列]Hadoop（5）MapReduce 排序：次排序（Secondary sort）
4.2 排序(SORT) 在MapReduce中,排序的目的有两个: MapReduce可以通过排序将Map输出的键分组.然后每组键调用一次reduce. 在某些需要排序的特定场景中,用户可以将作业( ...
[大牛翻译系列]Hadoop（3）MapReduce 连接：半连接（Semi-join）
4.1.3 半连接(Semi-join) 假设一个场景,需要连接两个很大的数据集,例如,用户日志和OLTP的用户数据.任何一个数据集都不是足够小到可以缓存在map作业的内存中.这样看来,似乎就不能使用 ...
[大牛翻译系列]Hadoop（2）MapReduce 连接：复制连接（Replication join）
4.1.2 复制连接(Replication join) 复制连接是map端的连接.复制连接得名于它的具体实现:连接中最小的数据集将会被复制到所有的map主机节点.复制连接有一个假设前提:在被连接的数 ...
[大牛翻译系列]Hadoop（22）附录D.2 复制连接框架
附录D.2 复制连接框架复制连接是map端连接,得名于它的具体实现:连接中最小的数据集将会被复制到所有的map主机节点.复制连接的实现非常直接明了.更具体的内容可以参考Chunk Lam的<H ...
[大牛翻译系列]Hadoop（20）附录A.10 压缩格式LZOP编译安装配置
附录A.10 LZOP LZOP是一种压缩解码器,在MapReduce中可以支持可分块的压缩.第5章中有一节介绍了如何应用LZOP.在这一节中,将介绍如何编译LZOP,在集群做相应配置. A.10.1 ...
[大牛翻译系列]Hadoop（19）MapReduce 文件处理：基于压缩的高效存储（二）
5.2 基于压缩的高效存储(续) (仅包括技术27) 技术27 在MapReduce,Hive和Pig中使用可分块的LZOP 如果一个文本文件即使经过压缩后仍然比HDFS的块的大小要大,就需要考虑选择 ...
[大牛翻译系列]Hadoop（18）MapReduce 文件处理：基于压缩的高效存储（一）
5.2 基于压缩的高效存储 (仅包括技术25,和技术26) 数据压缩可以减小数据的大小,节约空间,提高数据传输的效率.在处理文件中,压缩很重要.在处理Hadoop的文件时,更是如此.为了让Hadoop ...

随机推荐

关于c#调用c/c++ dll遇到的问题总结
前段时间公司做了个winform程序,需要调用c 的dll去读取卡号的程序,期间遇到些问题,下面来分享下一.dll路径问题相信很多开发者都会遇到这个问题,我总结了下我现在有3总方式去解决这个问题: ...
Linux常用命令速查备忘
Linux常用命令速查备忘 PS:备忘而已,详细的命令参数说明自己man 一. 启动,关机,登入,登出相关命令 [login] 登录 [logout] 登出 [exit] 登出 [shutdown ...
putty ssh login linux
(1) in linux $ ssh-keygen -t dsa $ cd .ssh $ cat id_dsa.pub > authorized_keys $ chmod 600 authori ...
Android小项目练习之一项目简介
------- 源自梦想.永远是你IT事业的好友.只是勇敢地说出我学到! ---------- 按惯例,写在前面的:可能在学习Android的过程中,大家会和我一样,学习过大量的基础知识,很多的知识点 ...
leetcode 题解：Remove Duplicates from Sorted Array II（已排序数组去三次及以上重复元素）
题目: Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For ex ...
android开发之路12（android四大组件&Fragment&AsyncTask类）
一．Activity组件1.简介:Activity组件是Android四大组件之一,通常一个Activity相当于一个用户界面,我们可以通过加载布局文件将Android提供的各种控件及自定义控件显示到 ...
BOM/ROUTING/PO/WIP等模块常用查询
常用查询scripts /*bom*/ select p_item.segment1,c_item.segment1,bic.COMPONENT_QUANTITY,bic.COMPONENT_YIEL ...
剑指Offer25 二叉搜索树转换为排序双向链表
/************************************************************************* > File Name: 25_BSTCon ...
转：Android中Context详解 ---- 你所不知道的Context
转:http://blog.csdn.net/qinjuning/article/details/7310620 转:http://blog.csdn.net/lmj623565791/article ...
html+css--水平居中总结-不定宽块状元素方法（三）
来源:http://www.imooc.com/code/6365 除了前两节讲到的插入table标签,以及改变元素的display类型,可以使不定宽块状元素水平居中之外,本节介绍第3种实现这种效果的 ...

[大牛翻译系列]Hadoop（21）附录D.1 优化后的重分区框架

附录D.1 优化后的重分区框架

[大牛翻译系列]Hadoop（21）附录D.1 优化后的重分区框架的更多相关文章

随机推荐

热门专题