hadoop排序 -- 全排序

一、关于Reducer全排序

　　1.1、　　什么叫全排序

　　1.2、　　分区的标准是什么

二、全排序的三种方式

　　2.1、　　一个Reducer

　　2.2、　　自定义分区函数

　　2.3、　　采样

　　一、关于Reducer全排序　　

1.1、什么叫全排序？

在所有的分区（Reducer）中，KEY都是有序的：

正确举例：如Reducer分区1中的key是1、3、4，分区2中的key是5、8、9
错误举例：如Reducer分区1中的key是1、3、4，分区2中的key是、7、9

1.2、数据分区的标准是什么？

默认的分区方式是根据mapper后的key的hash值，除以Reducer的分区数量，取其余数判定；例：

某key的hash值是999，此时有3个分区（Reducer），则999 % 3 = 0；则该key和其对应value会分在第一个区（同理，当余数为1，2时会分在对应的另外两个区）。

注意：若key的类型是Text类（或IntWritable等）的，则计算的是Text类型的key的hash值，而非通过Text获取到的String（或int等）类型的hash值。

也可自定义分区的判定方式，见下2.2、自定义分区函数

　　二、全排序的三种方式　　

一个Reduce
自定义分区函数
采样

2.1、一个Reduce

只有一个Reduce分区，自然是全排序效果

2.2、自定义分区函数

创建一个继承Partitioner的类，如：Partition
重写其”getPartition“方法，作为判断分区的依据
在main的job中将其加入：job.setPartitionerClass(Partition.class);

以随机分区为例，伪代码如下：

 public class Partition extends Partitioner <Text,IntWritable>{

     @Override

     public int getPartition(Text text, IntWritable intWritable, int numPartitions) {

         Random r = new Random();

         //根据分区的数量（numPartitions），获取一个随机值返回，返回的值作为Key判断分区的依据

         int i = r.nextInt(numPartitions);

         return i;

     }

 }

 public class RandomAPP {

     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

         ......

         //放判断放入分区的方式(随机放入)

         job.setPartitionerClass(Partition.class);

         ......

         //等待执行MapperReducer

         job.waitForCompletion(true)；

     }

 }

2.3、采样：TotalOrderPartition

RandomSampler：随机采样，性能差，适合乱序数据
IntervalSampler：间隔采样，性能较好，适合有序数据
SplitSampler：切片采样，性能较好，适合有序数据

以随机采样为例，伪代码如下：

注:以下需要放在App中设置配置文件的后面

         //在App中指定分区函数类

         job.setPartitionerClass(TotalOrderPartition.class);

         //设置文件的写入路径

         TotalOrderPartition.setPartitionFile(job.getConfiguration(),new Path("E:/par.dat"));

         /**

          * 初始化采样器

          * RandomSampler    采用随机采样的方式

          * freq             每个Key被选中的概率     freq x key > 分区数

          * numSamples       需要的样本数           numSamples  > 分区数

          * maxSplitsSampled 文件最大切片数         maxSplitsSampled > 当前切片数

          */

         InputSampler.RandomSampler = new InputSampler.RandomSampler(freq, numsamples,maxsplitsSampled );

         //写入采样数据

         InputSampler.writePartitionFile(job,sampler);

　　　　Over　　　　

hadoop排序 -- 全排序的更多相关文章

Hadoop学习笔记：全排序
在Hadoop中实现全排序有如下三种方法: 1. 只使用一个reducer 2. 自定义partitioner 3. 使用TotalOrderPartitioner 其中第一种方法显然违背了mapre ...
Hadoop的partitioner、全排序
按数值排序示例:按气温字段对天气数据集排序问题:不能将气温视为Text对象并以字典顺序排序正统做法:用顺序文件存储数据,其IntWritable键代表气温,其Text值就是数据行常用简单做法:首先, ...
MapReduce --全排序
MapReduce全排序的方法1: 每个map任务对自己的输入数据进行排序,但是无法做到全局排序,需要将数据传递到reduce,然后通过reduce进行一次总的排序,但是这样做的要求是只能有一个red ...
2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排下面,开始w ...
Hadoop之WritableComprale 排序
Hadoop之WritableComprale 排序 Hadoop只对key进行排序排序是 MapReduce 框架中最重要的操作之一.Map Task 和 Reduce Task 均会对数据(按照 ...
[大数据相关] Hive中的全排序：order by,sort by, distribute by
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序. 现在学了hive,写sql大家都很熟悉,如果一个order by解决 ...
Hadoop中的排序和连接
MapReduce的全排序主要是为了保证分区排序,即第一个分区的最后一个Key值小于第二个分区的第一个Key值与普通的排序仅仅多一个自定义分区类MyPartitioner见自己所写的实验 (设置一 ...
hive中的全排序
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出现在学了Hive,写sql大家都很熟悉,如果一个order by解决了全排序还用那么麻烦写mapred ...
C#字符串全排序
排列:从n个元素中任取m个元素,并按照一定的顺序进行排列,称为排列: 全排列:当n==m时,称为全排列: 比如:集合{ 1,2,3}的全排列为: { 1 2 3} { 1 3 2 } { 2 1 3 ...

随机推荐

C# Array类的Sort()方法
Array类实现了数组中元素的冒泡排序.Sort()方法要求数组中的元素实现IComparable接口.如System.Int32 和System.String实现了IComparable接口,所以下 ...
Python学习---PyCharm的使用学习
1.1. IDEA的使用 PyCharm2017下载链接:https://pan.baidu.com/s/1HPR9FtVV5BCvd3uTdOetxw 密码:ok0q 激活IDEA2017(方案一 ...
【MyBatis】 MyBatis入门
1.MyBatis简介 MyBatis是这个框架现在的名字,而此框架最早的名字是IBatis,其名字的含义是“internet”.“abatis”两个单词的组合,是在2002年的时候开始的一个开源项目 ...
+ - ! function($) ()， function 前面的符号意思
如果在function之前加上感叹号 (!) 会怎么样?比如下面的代码: !function(){alert('iifksp')}() // true 在控制台运行后得到的值时true, ...
API接口数据自检
这个周末的娱乐,通用模块,让后端自检,严格客户端按照文档的要求来,妈妈再也不担心我加班了,对某些团队来说,可能根本用不着,本是想到就尝试一把而已. 哎,傻X的客户端程序员,时间都去推辞扯淡打扮啦,好好 ...
svg压缩工具svgo安装使用
svgo是基于node.js的插件,所以需要先安装node.js 1.安装完node.js后,打开node.js命令窗口,输入npm install -g svgo,安装成后会出现下边的内容 2.对s ...
Java虚拟机9：垃圾收集（GC）-4（垃圾收集器）
1.前言垃圾收集器是前一章垃圾收集算法理论知识的具体实现了,不同虚拟机所提供的垃圾收集器可能会有很大差别,另外我们必须提前说明一个道理:没有最好的垃圾收集器,更加没有万能的收集器,只能选择对具体应用 ...
zk集群的快速搭建
1.上传一个zk.tar2.解压3.创建目录data4.修改zoo_sample.cfg ---> zoo.cfg5.修改文件的dataDir改为/data目录,echo 1 >/data ...
Ubuntu下命令行安装jdk，android-studio，及genymotion虚拟机来进行android开发
安装JDK 从oracle官网下最新版的linux64位的jdk包(现在最新为jdk-8u92-linux-x64.tar.gz) 命令如下新建文件夹-解压 sudo mkdir /usr/lib/ ...
【LGP5161】WD与数列
题目也是可以用$SAM$来做的我们发现要求原串不相交,那么就要求在差分序列里不相交并且不相邻考虑一下$SAM$,暴力做法自然是对每一个节点统计其所有$endpos$的影响既然这样我 ...

hadoop排序 -- 全排序

一、关于Reducer全排序

1.1、什么叫全排序？

1.2、数据分区的标准是什么？

二、全排序的三种方式

2.1、一个Reduce

2.2、自定义分区函数

2.3、采样：TotalOrderPartition

hadoop排序 -- 全排序的更多相关文章

随机推荐

热门专题

　　一、关于Reducer全排序　　

　　二、全排序的三种方式