hadoop复合键排序使用方法

在hadoop中处理复杂业务时，需要用到复合键，复合不同于单纯的继承Writable接口，而是继承了 WritableComparable<T>接口，而实际上，WritableComparable<T>接口继承了 Writable和Comparable<T>接口，如果只需要使用某一个类作为传值对象而不是作为key，继承Writable接口即可。

上源码：

    public interface WritableComparable<T> extends Writable, Comparable<T> {

    }

public interface Writable {  

  void write(DataOutput out) throws IOException;  

  void readFields(DataInput in) throws IOException;

}

    public interface Comparable<T> {  

        public int compareTo(T o);

    }

以下是实现复合key的实例：

public class SortKey implements WritableComparable<SortKey>{  

    private Text name;

    private IntWritable right;  

    public SortKey() {

        set(new Text(), new IntWritable());

    }  

    public SortKey(Text name, IntWritable right) {

        set(name, right);

    }  

    private void set(Text name,IntWritable right){

        this.name = name;

        this.right = right;

    }  

    /**

     * @return the name

     */

    public Text getName() {

        return name;

    }  

    /**

     * @param name the name to set

     */

    public void setName(Text name) {

        this.name = name;

    }  

    /**

     * @return the right

     */

    public IntWritable getRight() {

        return right;

    }  

    /**

     * @param right the right to set

     */

    public void setRight(IntWritable right) {

        this.right = right;

    }  

    @Override

    public void write(DataOutput out) throws IOException {

        name.write(out);

        right.write(out);

    }  

    @Override

    public void readFields(DataInput in) throws IOException {

        name.readFields(in);

        right.readFields(in);

    }  

    @Override

    public int compareTo(SortKey o) {

        int cmp = name.compareTo(o.name);

        if(cmp != 0){

            return cmp;

        }else{

            return right.compareTo(o.right);

        }

    }

    <span style="white-space:pre">    </span>//到目前为止，你只能将其作为key来使用，但是如果你需要按照key的某一个值来排序，以下是重点

static{

        WritableComparator.define(SortKey.class, new Comparator());

    }  

    public static class Comparator extends WritableComparator{  

        private static final Text.Comparator TEXT_COMPARATOR = new Text.Comparator();  

        protected Comparator() {

            super(SortKey.class);

        }  

        /* (non-Javadoc)

         * @see org.apache.hadoop.io.WritableComparator#compare(byte[], int, int, byte[], int, int)

         */

        @Override

        public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {

            try{

                int firstL1 = WritableUtils.decodeVIntSize(b1[s1]) + readVInt(b1, s1);

                int firstL2 = WritableUtils.decodeVIntSize(b2[s2]) + readVInt(b2, s2);

                return TEXT_COMPARATOR.compare(b1, s1, firstL1, b2, s2, firstL2);

            }catch(Exception e){

                throw new IllegalArgumentException(e);

            }

        }

    }  

}

hadoop复合键排序使用方法的更多相关文章

python 字典分别根据值或键进行排序的方法
最近经常遇到根据字母出现的频率进行排序的题目我的思路一般是借用字典统计字母出现的频率然后对字典按照值进行排序但是每次按照值进行排序时都会忘记排序方法在此记录一下,以加深印象字典原始值如下: ...
一起学Hadoop——二次排序算法的实现
二次排序,从字面上可以理解为在对key排序的基础上对key所对应的值value排序,也叫辅助排序.一般情况下,MapReduce框架只对key排序,而不对key所对应的值排序,因此value的排序经常 ...
hadoop MapReduce辅助排序解析
1.数据样本,w1.csv到w5.csv,每个文件数据样本2000条,第一列是年份从1990到2000随机,第二列数据从1-100随机,本例辅助排序目标是找出每年最大值,实际上结果每年最大就是100, ...
Hadoop之WritableComprale 排序
Hadoop之WritableComprale 排序 Hadoop只对key进行排序排序是 MapReduce 框架中最重要的操作之一.Map Task 和 Reduce Task 均会对数据(按照 ...
使 SortList 实现重复键排序
SortList 默认对按Key来排序,且Key值不能重复,但有时可能需要用有重复值的Key来排序,以下是实现方式: 1.对强类型:以float为例 #region 使SortList能对重复键排序 ...
2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排下面,开始w ...
MySQL删除外键定义的方法
MySQL外键在定以后,如果我们不再需要这个外键,可以进行删除操作,下面就为您介绍MySQL删除外键定义的方法,供您参考. 不知道大家有没有发现,在定义外键的时候articles.member_id外 ...
discuz x2 个人资料项排序问题解决方法、添加自定义字段、修改栏目名称和介绍
第一次写文章,希望与人提供方便同时,别误人子弟,自己研究的,大家看不懂只改文件就可以了,如果发现不对的地方请回复或直接通知我,谢谢,本来想在discuz论坛上发的,不懂版规也没时间看版规,怕发错,隔小 ...
Oracle中中文、数字,英文混杂形式的字段进行排序的方法
http://blog.csdn.net/p451933505/article/details/9272257 对Oracle中中文.数字.英文混杂形式的字段进行排序的方法: 例如: order by ...

随机推荐

uiautomator--图像处理
一.图像处理在自动化中使用场景 1)效果类截图图像处理技术在自动化的场景中很容易使用到.自动化不是万能的,有时候效果类的是无法进行验证的,但是效果类一般会有图像显示,我们可以通过截图对比实现. 2 ...
LeetCode——Keyboard Row
LeetCode--Keyboard Row Question Given a List of words, return the words that can be typed using lett ...
linux 分析进程占用CPU过高
重点是查看进程的线程中,哪个线程占用cpu过高,然后用gdb附加到进程,调试线程,看是否有死循环或者死锁等问题,步骤如下: 1 先用ps + grep找出该死的进程pid,比如 1706 2 top ...
Python基础笔记系列六：字典
本系列教程供个人学习笔记使用,如果您要浏览可能需要其它编程语言基础(如C语言),why?因为我写得烂啊,只有我自己看得懂!! 字典字典的元素是由一对对键值对组成,每一对之间用逗号隔开,将所有的键值对用 ...
python测试函数的使用时间
1. 使用装饰器来衡量函数执行时间有一个简单方法,那就是定义一个装饰器来测量函数的执行时间,并输出结果:(代码通用3.x) import time from functools import wra ...
NVMe到底是什么？用它的SSD有啥优势？
有玩过SSD的朋友应该都清楚想要让SSD发挥出真正实力的话要去BIOS里面把SATA控制器模式切换成AHCI,对SATA设备来说使用AHCI模式的确是正确的选择,切换成AHCI可获得更好的性能.但是现 ...
详解Django自定义过滤器
django过滤器的本质是函数,但函数太多了,为了显示自己的与众不同,设计者们想了个名字过滤器... django有一些内置的过滤器,但和新手赛车不多(把字母转成小写,求数组长度,从数组中取一个随机值 ...
h5 audio播放音频文件
h5 audio播放音频文件注:下面html中样式及不相关的内容去掉了第一个例子播放没有防盗链的外网音频文件是可以的 <!doctype html> <html> < ...
习题-第7章Web自动化测试
一.选择题 1.如果火狐浏览器不在默认安装路径,编写Selenium的设置代码,横线处应该填入( ), System.setProperty(“webdriver.firefox._______ ...
poj3678 2- sat
这题就是找合取范式比较麻烦 AND 1 0必须取自己来造成矛盾,1必须取1 AND 0 1必须取0 OR 1 0必须取1 OR 0 1必须取自己来造 ...

hadoop复合键排序使用方法

hadoop复合键排序使用方法的更多相关文章

随机推荐

热门专题