Hadoop学习之自定义二次排序

一、概述

MapReduce框架对处理结果的输出会根据key值进行默认的排序，这个默认排序可以满足一部分需求，但是也是十分有限的。在我们实际的需求当中，往
往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现，本文将通过一个实际的MapReduce二次排序例子讲述
二次排序的实现和其MapReduce的整个处理流程，并且通过结果和map、reduce端的日志来验证所描述的处理流程的正确性。
二、需求描述
1、输入数据：
sort1 1
sort2 3
sort2 77
sort2 54
sort1 2
sort6 22
sort6 221
sort6 20
2、目标输出
sort1 1,2
sort2 3,54,77
sort6 20,22,221

三、解决思路
1、首先，在思考解决问题思路时，我们先应该深刻的理解MapReduce处理数据的整个流程，这是最基础的，不然的话是不可能找到解决问题的思路的，我描述一下MapReduce处理数据的大概简单流程：首先，MapReduce框架通过getSplit方法实现对原始文件的切片之后，每一个切片对应着一个map
task，inputSplit输入到Map函数进行处理，中间结果经过环形缓冲区的排序,然后分区、自定义二次排序（如果有的话）和合并，再通过
shuffle操作将数据传输到reduce
task端，reduce端也存在着缓冲区，数据也会在缓冲区和磁盘中进行合并排序等操作，然后对数据按照Key值进行分组，然后没处理完一个分组之后就
会去调用一次reduce函数，最终输出结果。大概流程我画了一下，如下图：

2、具体解决思路

（1）Map端处理：
根据上面的需求，我们有一个非常明确的目标就是要对第一列相同的记录合并，并且对合并后的数字进行排序。我们都知道MapReduce框架不管是默认排序或者是自定义排序都只是对Key值进行排序，现在的情况是这些数据不是key值，怎么办？其实我们可以将原始数据的Key值和其对应的数据组合成一个新的Key值，然后新的Key值对应的还是之前的数字。那么我们就可以将原始数据的map输出变成类似下面的数据结构：
{[sort1,1],1}
{[sort2,3],3}
{[sort2,77],77}
{[sort2,54],54}
{[sort1,2],2}
{[sort6,22],22}
{[sort6,221],221}
{[sort6,20],20}
那么我们只需要对[]里面的新key值进行排序就ok了。然后我们需要自定义一个分区处理器，因为我的目标不是想将新key相同的传到同一个reduce中，而是想将新key中的第一个字段相同的才放到同一个reduce中进行分组合并，所以我们需要根据新key值中的第一个字段来自定义一个分区处理器。通过分区操作后，得到的数据流如下：
Partition1:{[sort1,1],1}、{[sort1,2],2}
Partition2:{[sort2,3],3}、{[sort2,77],77}、{[sort2,54],54}
Partition3:{[sort6,22],22}、{[sort6,221],221}、{[sort6,20],20}
分区操作完成之后，我调用自己的自定义排序器对新的Key值进行排序。
{[sort1,1],1}
{[sort1,2],2}
{[sort2,3],3}
{[sort2,54],54}
{[sort2,77],77}
{[sort6,20],20}
{[sort6,22],22}
{[sort6,221],221}
（2）Reduce端处理：
经过Shuffle处理之后，数据传输到Reducer端了。在Reducer端对按照组合键的第一个字段来进行分组，并且每处理完一次分组之后就会调用一次reduce函数来对这个分组进行处理输出。最终的各个分组的数据结构变成类似下面的数据结构:
{sort1,[1,2]}
{sort2,[3,54,77]}
{sort6,[20,22,221]}

四、具体实现
1、自定义组合键

 package com.mr;

 import java.io.DataInput;

 import java.io.DataOutput;

 import java.io.IOException;

 import org.apache.Hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.io.WritableComparable;

 import org.slf4j.Logger;

 import org.slf4j.LoggerFactory;

 /**

 * 自定义组合键

 * @author zenghzhaozheng

 */

 public class CombinationKey implements WritableComparable<CombinationKey>{

     private static final Logger logger = LoggerFactory.getLogger(CombinationKey.class);

     private Text firstKey;

     private IntWritable secondKey;

     public CombinationKey() {

         this.firstKey = new Text();

         this.secondKey = new IntWritable();

     }

     public Text getFirstKey() {

         return this.firstKey;

     }

     public void setFirstKey(Text firstKey) {

         this.firstKey = firstKey;

     }

     public IntWritable getSecondKey() {

         return this.secondKey;

     }

     public void setSecondKey(IntWritable secondKey) {

         this.secondKey = secondKey;

     }

     @Override

     public void readFields(DataInput dateInput) throws IOException {

         // TODO Auto-generated method stub

         this.firstKey.readFields(dateInput);

         this.secondKey.readFields(dateInput);

     }

     @Override

     public void write(DataOutput outPut) throws IOException {

         this.firstKey.write(outPut);

         this.secondKey.write(outPut);

     }

     /**

     * 自定义比较策略

     * 注意：该比较策略用于mapreduce的第一次默认排序，也就是发生在map阶段的sort小阶段，

     * 发生地点为环形缓冲区(可以通过io.sort.mb进行大小调整)

     */

     @Override

     public int compareTo(CombinationKey combinationKey) {

         logger.info("-------CombinationKey flag-------");

         return this.firstKey.compareTo(combinationKey.getFirstKey());

     }

 }

说明：在自定义组合键的时候，我们需要特别注意，一定要实现WritableComparable接口，并且实现compareTo方法的比较策略。这个用于mapreduce的第一次默认排序，也就是发生在map阶段的sort小阶段，发生地点为环形缓冲区(可以通过io.sort.mb进行大小调整)，但是其对我们最终的二次排序结果是没有影响的。我们二次排序的最终结果是由我们的自定义比较器决定的。
2、自定义分区器

 package com.mr;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.mapreduce.Partitioner;

 import org.slf4j.Logger;

 import org.slf4j.LoggerFactory;

 /**

 * 自定义分区

 * @author zengzhaozheng

 */

 public class DefinedPartition extends Partitioner<CombinationKey,IntWritable>{

     private static final Logger logger = LoggerFactory.getLogger(DefinedPartition.class);

     /**

     *  数据输入来源：map输出

     * @author zengzhaozheng

     * @param key map输出键值

     * @param value map输出value值

     * @param numPartitions 分区总数，即reduce task个数

     */

     @Override

     public int getPartition(CombinationKey key, IntWritable value,int numPartitions) {

         logger.info("--------enter DefinedPartition flag--------");

         /**

         * 注意：这里采用默认的hash分区实现方法

         * 根据组合键的第一个值作为分区

         * 这里需要说明一下，如果不自定义分区的话，mapreduce框架会根据默认的hash分区方法，

         * 将整个组合将相等的分到一个分区中，这样的话显然不是我们要的效果

         */

         logger.info("--------out DefinedPartition flag--------");

         return (key.getFirstKey().hashCode()&Integer.MAX_VALUE)%numPartitions;

     }

 }

说明：具体说明看代码注释。

3、自定义比较器

package com.mr;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

/**

* 自定义二次排序策略

* @author zengzhaoheng

*/

public class DefinedComparator extends WritableComparator {

    private static final Logger logger = LoggerFactory.getLogger(DefinedComparator.class);

    public DefinedComparator() {

        super(CombinationKey.class,true);

    }

    @Override

    public int compare(WritableComparable combinationKeyOne,

            WritableComparable CombinationKeyOther) {

        logger.info("---------enter DefinedComparator flag---------");

        CombinationKey c1 = (CombinationKey) combinationKeyOne;

        CombinationKey c2 = (CombinationKey) CombinationKeyOther;

        /**

        * 确保进行排序的数据在同一个区内，如果不在同一个区则按照组合键中第一个键排序

        * 另外，这个判断是可以调整最终输出的组合键第一个值的排序

        * 下面这种比较对第一个字段的排序是升序的，如果想降序这将c1和c2���过来（假设1）

        */

        if(!c1.getFirstKey().equals(c2.getFirstKey())){

            logger.info("---------out DefinedComparator flag---------");

            return c1.getFirstKey().compareTo(c2.getFirstKey());

            }

        else{//按照组合键的第二个键的升序排序，将c1和c2倒过来则是按照数字的降序排序(假设2)

            logger.info("---------out DefinedComparator flag---------");

            return c1.getSecondKey().get()-c2.getSecondKey().get();//0,负数,正数

        }

        /**

        * （1）按照上面的这种实现最终的二次排序结果为：

        * sort1    1,2

        * sort2    3,54,77

        * sort6    20,22,221

        * （2）如果实现假设1，则最终的二次排序结果为:

        * sort6    20,22,221

        * sort2    3,54,77

        * sort1    1,2

        * （3）如果实现假设2，则最终的二次排序结果为:

        * sort1    2,1

        * sort2    77,54,3

        * sort6    221,22,20

        */

        }

}

说明：自定义比较器决定了我们二次排序的结果。自定义比较器需要继承WritableComparator类，并且重写compare方法实现自己的比较策略。具体的排序问题请看注释。

Hadoop学习之自定义二次排序的更多相关文章

MapReduce自定义二次排序流程
每一条记录开始是进入到map函数进行处理,处理完了之后立马就入自定义分区函数中对其进行分区,当所有输入数据经过map函数和分区函数处理完之后,就调用自定义二次排序函数对其进行排序. MapReduce ...
分别使用Hadoop和Spark实现二次排序
零.序(注意本部分与标题无太大关系,可直接调至第一部分) 既然没用为啥会有序?原因不想再开一篇文章,来抒发点什么感想或者计划了,就在这里写点好了: 前些日子买了几本书,打算学习和研究大数据方面的知识, ...
python 实现Hadoop的partitioner和二次排序
我们知道,一个典型的Map-Reduce过程包括:Input->Map->Partition->Reduce->Output. Partition负责把Map任务输出的中间结 ...
Hadoop学习之旅二：HDFS
本文基于Hadoop1.X 概述分布式文件系统主要用来解决如下几个问题: 读写大文件加速运算对于某些体积巨大的文件,比如其大小超过了计算机文件系统所能存放的最大限制或者是其大小甚至超过了计算机整 ...
hadoop学习笔记（二）：简单启动
一.hadoop组件依赖关系二.hadoop日志格式: 两种日志,分别以out和log结尾: 1 以log结尾的日志:通过log4j日志记录格式进行记录的日志,采用日常滚动文件后缀策略来命名日志文件 ...
【Hadoop学习之十二】MapReduce案例分析四-TF-IDF
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 概念TF-IDF(term fre ...
C# Hadoop学习笔记（二）—架构原理
一,架构二.名词解释 (一)NameNode(简称NN),Hadoop的主节点,负责侦听节点是否活跃,对外开放接口等.在未来的大数据处理过程中,由于访问量和节点数量的不断增多,需要该节点的处理能 ...
hadoop学习笔记（二）：centos7三节点安装hadoop2.7.0
环境win7+vamvare10+centos7 一.新建三台centos7 64位的虚拟机 master node1 node2 二.关闭三台虚拟机的防火墙,在每台虚拟机里面执行: systemct ...
C#学习之自定义数组及其排序
在C#中对数组的定义比较灵活.这里着重说一下自定义数组和Array类的排序. 在Array类中通过属性Length就可以获取整个数组中数据的数量,可以通过foreach迭代数组. 使用Rank属性可以 ...

随机推荐

easyui的验证
加一个JS来重写验证,文件名为:validator.js 内容为: //扩展easyui表单的验证 $.extend($.fn.validatebox.defaults.rules, { //验证汉子 ...
JavaScript 继承方式的实现
1.原型链继承 function superType(name){ this.name= 'milk'; } super.prototype.sayName=function(){ console.l ...
ASP.NET文本框中添加日期选择控件
1.把文件夹拷贝到解决方案里面: 2.在前台页面添加对js文件的引用: <script language="javascript" type="text/javas ...
JAVA 年老代收集器第10节
JAVA 年老代收集器第10节上一章我们讲了新生代的收集器,那么这一章我们要讲的就是关于老年代的一些收集器.老年代的存活的一般是大对象以及生命很顽强的对象,因此新生代的复制算法很明显不能适应该区域 ...
制作与使用静态链接库（.lib）文件
(一)制作.lib文件 (1)打开vs,选择“新建项目”,选择“Visual C++“,选择”Win32 控制台应用程序“. (2)点击”确定“,点击”下一步“,设置如下 (3)点击”完成“,然后就可 ...
linux杂记（二）主机硬盘规划
linux安装过程中,至少要两个partition,一个是[/],另一个是虚拟内存[swap].但比较不保险. 稍微麻烦点的方式: / /usr:linux操作系统 /home:使用者信息 /var: ...
解析：用 CSS3 和 JavaScript 制作径向动画菜单
原作者的解析(英文):http://creative-punch.net/2014/02/making-animated-radial-menu-css3-javascript/ 原作者的解析(译文) ...
silverlight控件动画状态的过渡
动画代码: xmlns:vsm="clr-namespace:System.Windows;assembly=System.Windows" <vsm:VisualState ...
WebRTC 音视频开发
WebRTC 音视频开发 webrtc Android IOS WebRTC 音视频开发总结(七八)-- 为什么WebRTC端到端监控很关键? 摘要: 本文主要介绍WebRTC端到端监控(我们翻译 ...
ORACLE视图添加备注
ORACLE视图添加备注版权声明:本文为博主原创文章,未经博主允许不得转载. create or replace view oes_material_series_ref as select t.p ...

Hadoop学习之自定义二次排序

Hadoop学习之自定义二次排序的更多相关文章

随机推荐

热门专题