本文转载自Silhouette的文章，原文地址：http://www.dreamingfish123.info/?p=1102

Hadoop排序工具用法小结

发表于 2014 年 8 月 25 日由 fish

Hadoop用于对key的排序和分桶的设置选项比较多和复杂，目前在公司内主要以KeyFieldBasePartitioner和KeyFieldBaseComparator被hadoop用户广泛使用。

基本概念：

Partition：分桶过程，用户输出的key经过partition分发到不同的reduce里，因而partitioner就是分桶器，一般用平台默认的hash分桶也可以自己指定。
Key：是需要排序的字段，相同分桶&&相同key的行排序到一起。

下面以一个简单的文本作为例子，通过搭配不同的参数跑出真实作业的结果来演示这些参数的使用方法。
假设map的输出是这样以点号分隔的若干行：

d.1.5.23

e.9.4.5

e.5.9.22

e.5.1.45

e.5.1.23

a.7.2.6

f.8.3.3

我们知道，在streaming模式默认hadoop会把map输出的一行中遇到的第一个设定的字段分隔符前面的部分作为key，后面的作为
value，如果输出的一行中没有指定的字段分隔符，则整行作为key，value被设置为空字符串。
那么对于上面的输出，如果想用map输出的前2个字段作为key，后面字段作为value，并且不使用hadoop默认的“\t”字段分隔符，而是根据该
文本特点使用“.”来分割，需要如何设置呢

bin/hadoop streaming -input /tmp/comp-test.txt -output /tmp/xx -mapper cat -reducer cat \

-jobconf stream.num.map.output.key.fields=2 \

-jobconf stream.map.output.field.separator=. \

-jobconf mapred.reduce.tasks=5

结果：

e.9 4.5

f.8 3.3

——————

d.1 5.23

e.5 1.23

e.5 1.45

e.5 9.22

——————

a.7 2.6

总结：
从结果可以看出，在reduce的输出中，前两列和后两列用“\t”分隔，证明map输出时确实把用“.”分隔的前两列作为key，后面的作为
value。并且前两列相同的“e.5”开头的三行被分到了同一个reduce中，证明确实以前两列作为key整体做的partition。
stream.num.map.output.key.fields 设置map输出的前几个字段作为key
stream.map.output.field.separator 设置map输出的字段分隔符

KeyFieldBasePartitioner的用法

如果想要灵活设置key中用于partition的字段，而不是把整个key都用来做partition。就需要使用hadoop中的org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner了。
下面只用第一列作partition，但依然使用前两列作为key。

bin/hadoop streaming -input /tmp/comp-test.txt -output /tmp/xx -mapper cat -reducer cat \

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \

-jobconf stream.num.map.output.key.fields=2 \

-jobconf stream.map.output.field.separator=. \

-jobconf map.output.key.field.separator=. \

-jobconf num.key.fields.for.partition=1 \

-jobconf mapred.reduce.tasks=5

结果：

d.1 5.23

——————

e.5 1.23

e.5 1.45

e.5 9.22

e.9 4.5

——————

a.7 2.6

f.8 3.3

总结：
从结果可以看出，这次“e”开头的行都被分到了一个桶内，证明做partition是以第一列为准的，而key依然是前两列。并且在同一个
partition内，先按照第一列排序，第一列相同的，按照第二列排序。这里要注意的是使用
map.output.key.field.separator来指定key内字段的分隔符，这个参数是KeyFieldBasePartitioner
和KeyFieldBaseComparator所特有的。
map.output.key.field.separator 设置key内的字段分隔符
num.key.fields.for.partition 设置key内前几个字段用来做partition

事实上KeyFieldBasePartitioner还有一个高级参数
mapred.text.key.partitioner.options，这个参数可以认为是
num.key.fields.for.partition的升级版，它可以指定不仅限于key中的前几个字段用做partition，而是可以单独指定
key中某个字段或者某几个字段一起做partition。
比如上面的需求用mapred.text.key.partitioner.options表示为
mapred.text.key.partitioner.options=-k1,1
注意mapred.text.key.partitioner.options和num.key.fields.for.partition不需要一起使用，一起使用则以num.key.fields.for.partition为准。

这里再举一个例子，使用mapred.text.key.partitioner.options

bin/hadoop streaming -input /tmp/comp-test.txt -output /tmp/xx -mapper cat -reducer cat \

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \

-jobconf stream.num.map.output.key.fields=3 \

-jobconf stream.map.output.field.separator=. \

-jobconf map.output.key.field.separator=. \

-jobconf mapred.text.key.partitioner.options=-k2,3 \

-jobconf mapred.reduce.tasks=5

结果：

e.9.4 5

——————

a.7.2 6

e.5.9 22

——————

d.1.5 23

e.5.1 23

e.5.1 45

f.8.3 3

可见，这次是以前3列作为key的，而partition则以key中的第2-3列，因此以“e”开头的行被拆散了，但第二三列相同的“5，1”被
分到一个桶内。在同一个桶内，依然是从key的第一列开始排序的，注意，KeyFieldBasePartitioner只影响分桶并不影响排序。
mapred.text.key.partitioner.options 设置key内某个字段或者某个字段范围用做partition

KeyFieldBaseComparator的用法

首先简单解释一下hadoop框架中key的comparator，对于hadoop所识别的所有java的key类型（在框架看来key的类型只
能是java的），很多类型都自定义了基于字节的比较器，比如Text，IntWritable等等，如果不特别指定比较器而使用这些类型默认的，则会将
key作为一个整体的字节数组来进行比较。而KeyFieldBaseComparator则相当于是一个可以灵活设置比较位置的高级比较器，但是它并没
有自己独有的比较逻辑，而是使用默认Text的基于字典序或者通过-n来基于数字比较。
之前的例子使用KeyFieldBasePartitioner自定义了使用key中的部分字段做partition，现在我们通过org.apache.hadoop.mapred.lib.KeyFieldBasedComparator来自定义使用key中的部分字段做比较。

这次把前四列都作为key，前两列做partition，排序依据优先依据第三列正序(文本序)，第四列逆序(数字序)的组合排序。

bin/hadoop streaming -input /tmpcomp-test.txt -output /tmp/xx -mapper cat -reducer cat \

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \

-jobconf mapred.output.key.comparator.class=org.apache.hadoop.mapred.lib.KeyFieldBasedComparator \

-jobconf stream.num.map.output.key.fields=4 \

-jobconf stream.map.output.field.separator=. \

-jobconf map.output.key.field.separator=. \

-jobconf mapred.text.key.partitioner.options=-k1,2 \

-jobconf mapred.text.key.comparator.options="-k3,3 -k4nr" \

-jobconf mapred.reduce.tasks=5

结果：

e.5.1.45

e.5.1.23

d.1.5.23

e.5.9.22

——————

a.7.2.6

——————

f.8.3.3

e.9.4.5

总结：
从结果可以看出，符合预期的按照先第三列文本正序，然后第四列基于数字逆序的排序。
另外注意，如果这种写法
mapred.text.key.comparator.options=”-k2″
则会从第二列开始，用字典序一直比较到key的最后一个字节。所以对于希望准确排序字段的需求，还是使用“k2,2”这种确定首尾范围的形式更好。另外如果给定的key中某些行需要排序的列数不够时，会比较到最后一列，缺列的行默认缺少的那一列排序值最小。
mapred.text.key.comparator.options 设置key中需要比较的字段或字节范围

转载：Hadoop排序工具用法小结的更多相关文章

【转载】QT QTableView用法小结
原始日期: 2016-08-16 09:28 来源:http://blog.csdn.net/wang_lichun/article/details/7805253 QTableView常用于实现数据 ...
转载：QT QTableView用法小结
出自: http://blog.chinaunix.net/uid-20382483-id-3518513.html QTableView常用于实现数据的表格显示.下面我们如何按步骤实现学生信息表格: ...
【转载】C++ typedef用法小结
http://www.cnblogs.com/charley_yang/archive/2010/12/15/1907384.html 第一.四个用途用途一: 定义一种类型的别名,而不只是简单的宏替 ...
pandas用法小结
前言个人感觉网上对pandas的总结感觉不够详尽细致,在这里我对pandas做个相对细致的小结吧,在数据分析与人工智能方面会有所涉及到的东西在这里都说说吧,也是对自己学习的一种小结! pandas用 ...
MVC图片上传详解 IIS (安装SSL证书后) 实现 HTTP 自动跳转到 HTTPS C#中Enum用法小结表达式目录树 “村长”教你测试用例引用provinces.js的三级联动
MVC图片上传详解 MVC图片上传--控制器方法新建一个控制器命名为File,定义一个Img方法 [HttpPost]public ActionResult Img(HttpPostedFile ...
函数fgets和fputs、fread和fwrite、fscanf和fprintf用法小结（转）
函数fgets和fputs.fread和fwrite.fscanf和fprintf用法小结字符串读写函数fgets和fputs 一.读字符串函数fgets函数的功能是从指定的文件中读一个字符串到字符 ...
Java返回类型泛型的用法小结
Java返回类型泛型的用法小结版权声明:本文为博主原创文章,未经博主允许不得转载. 关于Java泛型的基本用法就不多说了,主要是一个编译期的检查,也避免了我们代码中的强制转换,比较经典的用法有泛型D ...
MariaDB/MySQL备份和恢复(一)：mysqldump工具用法详述
本文目录:1.备份分类2.备份内容和备份工具3.mysqldump用法详述 3.1 语法选项 3.1.1 连接选项 3.1.2 筛选选项 3.1.3 DDL选项 3.1.4 字符集选项 3.1.5 复 ...
c#中@标志的作用 C#通过序列化实现深表复制细说并发编程-TPL 大数据量下DataTable To List效率对比【转载】C#工具类：实现文件操作File的工具类异步多线程 Async .net 多线程 Thread ThreadPool Task .Net 反射学习
c#中@标志的作用参考微软官方文档-特殊字符@,地址 https://docs.microsoft.com/zh-cn/dotnet/csharp/language-reference/toke ...

随机推荐

CDR VBA鼠标选择
Dim x As Double, y As Double, Shift As Long, b As Boolean, doc As Document Dim sel1 As Shape, sel2 A ...
得静下心来看python了。
陆陆续续看了些python爬虫的相关知识.今天找到了这篇博客不错就看这个,明天看到那个又很好又跑去看那个. 来来回回耽误不少时间.接下来不能再这样了,老老实实就看xlzd.me博客和Python实战: ...
Redis的入门及注意事项
1.redis简介 Remote Dictionary Server Redis 与其他 key - value 缓存产品有以下三个特点: Redis支持数据的持久化,可以将内存中的数据保存在磁盘中, ...
如何将 NavigationBar 的半透明效果关闭？
如何将 NavigationBar 的半透明效果关闭?只需三行代码就可以:self.navigationController.navigationBar.barTintColor = [UIColor ...
【转】理解inode
From:http://www.ruanyifeng.com/blog/2011/12/inode.html 阮一峰大神真NB 作者: 阮一峰日期: 2011年12月 4日 inode是一个重要概 ...
MFC 按钮如何改变颜色
我们发现想改变对话框的背景颜色是很简单的,但是对话框的背景颜色改变了后,我们发现按钮的颜色没有改变,如下图. 这样做出来的对话框看起来,不是很自然,我们也想把按钮的颜色改变一下.这就用到了按钮的重绘. ...
Oracle Database 12c Release 1下载安装（自身经历）
1.访问Oracle官网:https://www.oracle.com/index.html,下载Oracle Database 12c Release 1 (注意:File1和File2都要下载!! ...
OpenCV 人脸识别 C++实例代码
#include <opencv2/highgui/highgui.hpp> #include <opencv2/imgproc/imgproc.hpp> #include & ...
Linux下安装Tomcat服务器和部署Web应用
一.上传Tomcat服务器
[leetcode]题型整理之用bit统计个数
137. Single Number II Given an array of integers, every element appears three times except for one. ...

转载：Hadoop排序工具用法小结

Hadoop排序工具用法小结

基本概念：

KeyFieldBasePartitioner的用法

KeyFieldBaseComparator的用法

转载：Hadoop排序工具用法小结的更多相关文章

随机推荐

热门专题