Hadoop学习笔记： MapReduce二次排序

本文给出一个实现MapReduce二次排序的例子

package SortTest;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import org.apache.hadoop.io.*;

public class SortComparable implements WritableComparable<SortComparable> {

    private Integer first;

    private Integer second;

    public SortComparable(){

    }

    public SortComparable(Integer first, Integer second) {

        this.first = first;

        this.second = second;

    }

    public Integer getFirst() {

        return first;

    }

    public Integer getSecond() {

        return second;

    }

    @Override

    public void readFields(DataInput in) throws IOException {

        this.first = in.readInt();

        this.second = in.readInt();

    }

    @Override

    public void write(DataOutput out) throws IOException {

        out.writeInt(this.first);

        out.writeInt(this.second);

    }

    @Override

    public int compareTo(SortComparable o) {

        int temp = this.first - o.first;

        if(temp != 0){

            return temp;

        } else {

            return (o.second - this.second);

        }

    }

}

package SortTest;

import java.io.IOException;

import org.apache.hadoop.conf.*;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.*;

import org.apache.hadoop.mapreduce.*;

import org.apache.hadoop.mapreduce.lib.input.*;

import org.apache.hadoop.mapreduce.lib.output.*;

import org.apache.hadoop.util.*;

public class SortComparableTest extends Configured implements Tool {

    public static class MapperTest extends Mapper<LongWritable, Text, SortComparable, IntWritable> {

        public void map(LongWritable key, Text value, Context context)

                throws IOException, InterruptedException {

            String[] split = value.toString().split("\t");

            Integer first = Integer.parseInt(split[0]);

            Integer second = Integer.parseInt(split[1]);

            SortComparable sc = new SortComparable(first, second);

            context.write(sc, new IntWritable(1));

        }

    }

    public static class ReducerTest extends Reducer<SortComparable, IntWritable, IntWritable, IntWritable> {

        public void reduce(SortComparable key, Iterable<IntWritable> values, Context context)

                throws IOException, InterruptedException {

            context.write(new IntWritable(key.getFirst()),new IntWritable(key.getSecond()));

        }

    }

    public static void main(String[] args) {

        try {

            int returnCode = ToolRunner.run(new SortComparableTest(), args);

            System.exit(returnCode);

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

    static final String INPUT = "/home/sortInput";

    static final String OUTPUT = "/home/sortOutput";

    @Override

    public int run(String[] arg0) throws Exception {

        Configuration conf = new Configuration();

        conf.set("fs.default.name","hdfs://localhost:9001");

        Job job = Job.getInstance(conf, "SortTest");

        FileInputFormat.addInputPath(job, new Path(INPUT));

        FileOutputFormat.setOutputPath(job, new Path(OUTPUT));

        job.setJarByClass(SortComparableTest.class);

        job.setMapperClass(MapperTest.class);

        job.setReducerClass(ReducerTest.class);

        job.setMapOutputKeyClass(SortComparable.class);

        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(IntWritable.class);

        job.setOutputValueClass(IntWritable.class);

        job.waitForCompletion(true);

        return job.isSuccessful() ? 0 : 1;

    }

}

Hadoop学习笔记： MapReduce二次排序的更多相关文章

Hadoop学习之自定义二次排序
一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的.在我们实际的需求当中,往往有要对reduce输出结果进行二次排 ...
hadoop学习笔记（二）：简单启动
一.hadoop组件依赖关系二.hadoop日志格式: 两种日志,分别以out和log结尾: 1 以log结尾的日志:通过log4j日志记录格式进行记录的日志,采用日常滚动文件后缀策略来命名日志文件 ...
Hadoop学习笔记—MapReduce的理解
我不喜欢照搬书上的东西,我觉得那样写个blog没多大意义,不如直接把那本书那一页告诉大家,来得省事.我喜欢将我自己的理解.所以我会说说我对于Hadoop对大量数据进行处理的理解.如果有理解不对欢迎批评 ...
C# Hadoop学习笔记（二）—架构原理
一,架构二.名词解释 (一)NameNode(简称NN),Hadoop的主节点,负责侦听节点是否活跃,对外开放接口等.在未来的大数据处理过程中,由于访问量和节点数量的不断增多,需要该节点的处理能 ...
hadoop学习笔记（二）：centos7三节点安装hadoop2.7.0
环境win7+vamvare10+centos7 一.新建三台centos7 64位的虚拟机 master node1 node2 二.关闭三台虚拟机的防火墙,在每台虚拟机里面执行: systemct ...
Hadoop 学习笔记（二） HDFS API
4.删除HDFS上的文件 package proj; import java.io.IOException; import org.apache.hadoop.conf.Configuration; ...
Hadoop学习笔记（二）：简单操作
1. 启动namenode和datanode,在master上输入命令hdsf dfsadmin -report查看整个集群的运行情况(记得关闭防火墙) 2. 输入命令查看hadoop监听的端口,ne ...
Hadoop学习笔记之二：NameNode
NameNode对三大协议接口(NamenodeProtocol.ClientProtoco.DatanodeProtocol)进行实现,利用ipc::Server通过三个协议分别向SNN.Clien ...
Hadoop学习笔记（二）——zookeeper使用和分析
分布式架构是中心化的设计.就是一个主控机连接多个处理节点,因此保证主控机高可用性十分关键.分布式锁是解决该问题的较好方案,多主控机抢一把锁.Zookeeper就是一套分布式锁管理系统,用于高可靠的维护 ...
Hadoop学习笔记之二文件操作
HDFS分布式文件系统:优点:支持超大文件存储.流式访问.一次写入多次读取.缺点:不适应大量小文件.不适应低时延的数据访问.不适应多用户访问任意修改文件. 1.hadoop用于大数据处理,在数据量较小 ...

随机推荐

如何伪装成为一名前端（JS方向）
作为一个菜鸟级别的.NET开发者,在连服务器都没搞定的情况下,要研究前端,这是在扯淡,不过,迫于工作的需要,时常需要去前端打杂,所以经常伪装成为一名前端,有时候竟产生错觉,去应聘Y一份前端work吧. ...
iOS上让按钮文本左对齐问题
一,问题分析 1.在做历史记录视图的时候,由于让键盘退出后才能触发表格的 didselect 那个代理方法,也就是得点两下才触发,而表格中的按钮点一下就可以立即响应. 2.于是我就有了用按钮事件代替 ...
thinkphp常用Config.php配置项
<?php return array( //'配置项'=>'配置值' 'DB_HOST' => 'localhost', 'DB_USER' => 'root', 'DB_PW ...
db2代理和优化
DB2 的代理 (agent) 是位于 DB2 服务器中的服务于应用程序请求的一些进程或线程.当有外部应用程序连接至 DB2 实例提出访问请求时,DB2 的代理就会被激活去应答这些请求.一般 DB2 ...
OSG使用更新回调来更改模型
OSG使用更新回调来更改模型转自:http://blog.sina.com.cn/s/blog_668aae7801017gl7.html 使用回调类实现对场景图形节点的更新.本节将讲解如何使用回调 ...
Nodejs操作redis
//npm install redis //首先加载node_redis模块 var redis = require('redis'); // 创建redis连接 var client = redis ...
iOS 最全面试题
HTTP/1.0 在HTTP/1.0版本中,并没有官方的标准来规定Keep-Alive如何工作,因此实际上它是被附加到HTTP/1.0协议上,如果客户端浏览器支持Keep-Alive,那么就在HTTP ...
ArcGIS初步系列视频教程
本人才疏学浅,但鉴于较少的ArcGIS10以上版本的学习视频,所以利用业余时间做了这么个业余的视频系列教程,本随笔提供在线观看地址与720P原版下载地址. 1认识ArcGIS 优酷在线地址 (优酷清 ...
Hive_初步见解,安装部署与测试
一.hive是什么东东 1. 个人理解 hive就是一个基于hdfs运行于MapReduce上的一个java项目, 这个项目封装了jdbc,根据hdfs编写了处理数据库的DDL/DML,自带的二进制 ...
利用HTML5的一个重要特性 —— DeviceOrientation来实现手机网站上的摇一摇功能
介绍之前做两个声明: 以下代码可以直接运行,当然你别忘了引用jQuery才行. <script> // DeviceOrientation将底层的方向传感器和运动传感器进行了高级封装, ...

Hadoop学习笔记： MapReduce二次排序

Hadoop学习笔记： MapReduce二次排序的更多相关文章

随机推荐

热门专题