Hadoop的partitioner、全排序

按数值排序

示例：按气温字段对天气数据集排序
问题：不能将气温视为Text对象并以字典顺序排序
正统做法：用顺序文件存储数据，其IntWritable键代表气温，其Text值就是数据行
常用简单做法：首先，增加偏移量以消除所有负数；其次，在数字面前加0，使所有数字的长度相等；最后，用字典法排序。
streaming的做法：-D mapred.text.key.comparator.options="-k1n -k2nr" 第一个year字段按数值顺序排序，第二个temp字段按数值顺序方向排序

Partitioner

Mapreduce默认的partitioner是HashPartitioner。除了这个mapreduce还提供了3种partitioner。如下图所示：

patition类结构

1. Partitioner是partitioner的基类，如果需要定制partitioner也需要继承该类。

2. HashPartitioner是mapreduce的默认partitioner。计算方法是

which reducer=(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks，得到当前的目的reducer。

3. BinaryPatitioner继承于Partitioner< BinaryComparable ,V>，是Partitioner的偏特化子类。该类提供leftOffset和rightOffset，在计算which reducer时仅对键值K的[rightOffset，leftOffset]这个区间取hash。

Which reducer=(hash & Integer.MAX_VALUE) % numReduceTasks

4. KeyFieldBasedPartitioner也是基于hash的个partitioner。和BinaryPatitioner不同，它提供了多个区间用于计算hash。当区间数为0时KeyFieldBasedPartitioner退化成HashPartitioner。

$HADOOP_HOME/bin/hadoop streaming \

-D stream.map.output.field.separator=. \

-D stream.num.map.output.key.fields=4 \

-D map.output.key.field.separator=. \ #map输出分隔符设为“.”

-D num.key.fields.for.partition=2 \ #将key分隔出来的前两个部分而不是整个key用于Partitioner做partition

-input /user/test/input -output /user/test/output \

-mapper “mymapper.sh” -reducer “ myreducer.sh” \

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \ #使用KeyFieldBasedPartitioner

-file /home/work/mymapper.sh \

-file /home/work/myreducer.sh \

-jobconf mapred.job.name=”key-partition-demo”

5. TotalOrderPartitioner这个类可以实现输出的全排序。不同于以上3个partitioner，这个类并不是基于hash的。在下一节里详细的介绍totalorderpartitioner。

全排序

最简单的方法：所有数据丢给一个reduce，使其内部排序。
这样的方法跟单机没什么区别，完全没有利用分布式计算的优势；数据量稍大时，一个reduce的处理效率极低。
分布式方案：
首先，创建一系列排序好的文件；其次，串联这些文件；最后生成一个全局排序的文件。
主要思路是使用一个partitioner来描述全局排序的输出。
由此我们可以归纳出这样一个用hadoop对大量数据排序的步骤：
1）对待排序数据进行抽样；
2）对抽样数据进行排序，产生标尺；
3） Map对输入的每条数据计算其处于哪两个标尺之间；将数据发给对应区间ID的reduce
4） Reduce将获得数据直接输出。
这里使用对一组url进行排序来作为例子：

Java实现：

1）InputSampler

输入采样类，可以对输入目录下的数据进行采样。InputSampler类实现了Sampler接口，目的是创建一个顺序文件来存储定义分区的键。提供了3种采样方法。

采样类结构图

采样方式对比表:

类名称	采样方式	构造方法	效率	特点
SplitSampler<K,V>	对前n个记录进行采样	采样总数，划分数	最高
RandomSampler<K,V>	遍历所有数据，随机采样	采样频率，采样总数，划分数	最低
IntervalSampler<K,V>	固定间隔采样	采样频率，划分数	中	对有序的数据十分适用

InputSampler.Sampler<IntWritable, Text> sampler = new InputSampler.RandomSampler<IntWritable, Text>(

0.1, 10000, 10);
RandomSampler的三个参数分别是采样率、最大样本数、最大分区。

2）TotalOrderPartitioner
TotalOrderPartitioner.setPartitionFile(conf, partitionFile);

InputSampler.writePartitionFile(conf, sampler);
InputSampler写的分区文件放在输入目录。
TotalOrderPartitioner指定partition文件。partition文件要求Key （这些key就是所谓的划分）的数量和当前reducer的数量相同并且是从小到大排列。

writePartitionFile这个方法根据采样类提供的样本，首先进行排序，然后选定（随机的方法）和reducer数目-1的样本写入到partition file。这样经过采样的数据生成的划分，在每个划分区间里的key value pair 就近似相同了，这样就能完成均衡负载的作用。

DistributedCache.addCacheFile(partitionUri, conf);
partition文件载入分布式缓存。

Hadoop的partitioner、全排序的更多相关文章

Hadoop学习笔记：全排序
在Hadoop中实现全排序有如下三种方法: 1. 只使用一个reducer 2. 自定义partitioner 3. 使用TotalOrderPartitioner 其中第一种方法显然违背了mapre ...
[大数据相关] Hive中的全排序：order by,sort by, distribute by
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序. 现在学了hive,写sql大家都很熟悉,如果一个order by解决 ...
hadoop排序 -- 全排序
目录一.关于Reducer全排序 1.1. 什么叫全排序 1.2. 分区的标准是什么二.全排序的三种方式 2.1. 一个Reducer 2.2. 自定义分区函数 2.3. 采样一.关于Reduc ...
MapReduce --全排序
MapReduce全排序的方法1: 每个map任务对自己的输入数据进行排序,但是无法做到全局排序,需要将数据传递到reduce,然后通过reduce进行一次总的排序,但是这样做的要求是只能有一个red ...
Hadoop中的各种排序
本篇博客是金子在学习hadoop过程中的笔记的整理,不论看别人写的怎么好,还是自己边学边做笔记最好了. 1:shuffle阶段的排序(部分排序) shuffle阶段的排序可以理解成两部分,一个是对sp ...
Hadoop基础-MapReduce的排序
Hadoop基础-MapReduce的排序作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MapReduce的排序分类 1>.部分排序部分排序是对单个分区进行排序,举个 ...
Hadoop MapReduce 二次排序原理及其应用
关于二次排序主要涉及到这么几个东西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGrou ...
如何使用Hadoop的Partitioner
如何使用Hadoop的Partitioner 博客分类: Hadoop hadooppartition Hadoop里面的MapReduce编程模型,非常灵活,大部分环节我们都可以重写它的API,来灵 ...
hive中的全排序
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出现在学了Hive,写sql大家都很熟悉,如果一个order by解决了全排序还用那么麻烦写mapred ...

随机推荐

http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html
http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html http://www.cnblogs.com/madyina/p/370 ...
hdu1021 Fibonacci Again
http://acm.hdu.edu.cn/showproblem.php?pid=1021 //找规律.. #include<iostream> #include<stdio.h& ...
hdu 1753 大明A+B
题目:http://acm.hdu.edu.cn/showproblem.php?pid=1753 容易出错的事例: 0.1 0.2 1.88 22.22 1 0.01 大概出错的几个点,做久了思维根 ...
查看mininet交换机中的流表
官网文档http://mininet.org/walkthrough/#xterm-display Xterms are also useful for running interactive com ...
欧拉工程第68题：Magic 5-gon ring
题目链接任意一条线上的三个数的和都等于9,顺时针,从最小的外圈开始,得到的序列是:432621213 和序列 9位的字符串:三角环所能形成的最大字符串为432621513. ...
lintcode ：Invert Binary Tree 翻转二叉树
题目: 翻转二叉树翻转一棵二叉树样例 1 1 / \ / \ 2 3 => 3 2 / \ 4 4 挑战递归固然可行,能否写个非递归的? 解题: 递归比较简单,非递归待补充 Java程序: ...
Filter(过滤器)常见应用
孤傲苍狼只为成功找方法,不为失败找借口! javaweb学习总结(四十六)——Filter(过滤器)常见应用一.统一全站字符编码通过配置参数charset指明使用何种字符编码,以处理Html F ...
日志logger
1.使用指定类初始化日志对象在日志输出的时候,可以打印出日志信息所在类如:Logger logger = LoggerFactory.getLogger(com.Book.class); ...
Hibernate逍遥游记-第13章映射实体关联关系-003单向多对多
0. 1. drop database if exists SAMPLEDB; create database SAMPLEDB; use SAMPLEDB; create table MONKEYS ...
QTimer源码分析(以Windows下实现为例)
QTimer源码分析(以Windows下实现为例) 分类: Qt2011-04-13 21:32 5026人阅读评论(0) 收藏举报 windowstimerqtoptimizationcallb ...

Hadoop的partitioner、全排序

Hadoop的partitioner、全排序的更多相关文章

随机推荐

热门专题