Hadoop学习笔记：全排序

在Hadoop中实现全排序有如下三种方法：

1. 只使用一个reducer

2. 自定义partitioner

3. 使用TotalOrderPartitioner

其中第一种方法显然违背了mapreduce分布式编程的初衷，在数据量大的情况下并不适用。第二种方法的问题在于开发人员需要预先知道输入数据集的取值分布，不然无法保证每一个reducer的负载均衡。这里我们简单介绍下第三种方法。

package SortTest;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.*;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.partition.InputSampler;

import org.apache.hadoop.mapreduce.lib.partition.TotalOrderPartitioner;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class TotalSort extends Configured implements Tool {

    public static class MapperTest extends Mapper<LongWritable, Text, LongWritable, Text> {

        public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

            String[] split = value.toString().split("\t");

            LongWritable first = new LongWritable(Integer.parseInt(split[0]));

            Text second = new Text(split[1]);

            context.write(first, second);

        }

    }

    public static class ReducerTest extends Reducer<LongWritable, Text, LongWritable, Text> {

        public void reduce(LongWritable key, Iterable<Text> values, Context context)

                throws IOException, InterruptedException {

            for (Text value : values) {

                context.write(key, value);

            }

        }

    }

    public static void main(String[] args) throws Exception {

        int res = ToolRunner.run(new Configuration(), new TotalSort(), args);

        System.exit(res);

    }

    static final String INPUT = "/home/sort_in";

    static final String OUTPUT = "/home/sort_out";

    @Override

    public int run(String[] arg0) throws Exception {

        Configuration conf = new Configuration();

        conf.set("fs.default.name", "hdfs://hadoop001:9001");

        Job job = Job.getInstance(conf, "TotalSort");

        FileInputFormat.addInputPath(job, new Path(INPUT));

        FileOutputFormat.setOutputPath(job, new Path(OUTPUT));

        job.setNumReduceTasks(3);

        job.setJarByClass(TotalSort.class);

        job.setMapperClass(MapperTest.class);

        job.setReducerClass(ReducerTest.class);

        job.setPartitionerClass(TotalOrderPartitioner.class);

        job.setMapOutputKeyClass(LongWritable.class);

        job.setMapOutputValueClass(Text.class);

        InputSampler.RandomSampler<LongWritable, Text> sampler =

                new InputSampler.RandomSampler<LongWritable, Text>(1,10,2);

        // 告诉hadoop分布式缓存文件放在哪里好

        Path cachePath = new Path("/home/partition/pfile");

        TotalOrderPartitioner.setPartitionFile(job.getConfiguration(), cachePath);

        InputSampler.writePartitionFile(job, sampler);

        job.waitForCompletion(true);

        return job.isSuccessful() ? 0 : 1;

    }

}

Hadoop学习笔记：全排序的更多相关文章

Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...
Hadoop学习笔记(9) ——源码初窥
Hadoop学习笔记(9) ——源码初窥之前我们把Hadoop算是入了门,下载的源码,写了HelloWorld,简要分析了其编程要点,然后也编了个较复杂的示例.接下来其实就有两条路可走了,一条是继续 ...
Hadoop学习笔记(8) ——实战做个倒排索引
Hadoop学习笔记(8) ——实战做个倒排索引倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如 ...
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA.在linux下开发JAVA还数eclip ...
Hadoop学习笔记系列
Hadoop学习笔记系列一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼 ...
Hadoop学习笔记之HBase Shell语法练习
Hadoop学习笔记之HBase Shell语法练习作者:hugengyong 下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称命令 ...
Hadoop学习笔记—22.Hadoop2.x环境搭建与配置
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...
Hadoop学习笔记(7) ——高级编程
Hadoop学习笔记(7) ——高级编程从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...
Hadoop学习笔记(2)
Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...

随机推荐

ACM: HDU 5285 wyh2000 and pupil-二分图判定
HDU 5285 wyh2000 and pupil Time Limit:1500MS Memory Limit:65536KB 64bit IO Format:%I64d &a ...
洛谷 P1449 后缀表达式 Label:表达式计算系列
题目描述所谓后缀表达式是指这样的一个表达式:式中不再引用括号,运算符号放在两个运算对象之后,所有计算按运算符号出现的顺序,严格地由左而右新进行(不用考虑运算符的优先级). 如:3*(5–2)+7对应 ...
Android -- TextView、button方法详解（1）
1.TextView常规方法 TextView myTextView=null; //声明变量 myTextView=(TextView)findViewById(R.id.myTextView); ...
C语言中常量
C语言中常量不具有数据类型的常量------宏常量宏常量定义:用一个标识符号来表示的常量,又称为符号常量. 宏定义: #define 标识符字符串 ----- ...
FPGA技术的发展历史和动向
本文关键字:fpga技术,fpga发展, fpga培训,FPGA应用开发入门与典型实例一.FPGA技术的发展历史纵观数字集成电路的发展历史,经历了从电子管.晶体管.小规模集成电路到大规模以及超大规 ...
20145330第七周《Java学习笔记》
20145330第七周<Java学习笔记> 第十三章时间与日期认识时间与日期时间的度量 GMT(格林威治标准时间):现在不是标准时间世界时(UT):1972年UTC出来之前,UT等 ...
Bootstrap整合ASP.NET MVC验证、jquery.validate.unobtrusive
没什么好讲的,上代码: (function ($) { var defaultOptions = { validClass: 'has-success', errorClass: 'has-error ...
Window.document对象轮播练习
Window.document对象一.找到元素: docunment.getElementById("id"):根据id找,最多找一个: var a =docun ...
android-ListView控件的使用
一.深刻理解ListView 1.职责:将数据填充到布局.响应用户操作 2.ListView的实现需要:布局.数据源.适配器 3.常见适配器: ArrayAdapter<T> 用来绑定一 ...
Odoo Website 替换 Summernote 为第三方富文本编辑器
随着用odoo的人越来越多,奇葩的需求也是越来越多.... 这不,有同学就想替换掉website forum里边的summernote控件,花了点时间研究了一下,先说结论:替换是可行的. 先上替换之后 ...

Hadoop学习笔记： 全排序

Hadoop学习笔记： 全排序的更多相关文章

随机推荐

热门专题

Hadoop学习笔记：全排序

Hadoop学习笔记：全排序的更多相关文章