2.12 Hivet中order by，sort by、distribute by和cluster by

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy

一、order by

对全局数据的排序，仅仅只有一个reduce；

Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，

所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，

也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会消耗很长的时间去执行。

这里跟传统的sql还有一点区别：如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须

指定limit来限制输出条数，原因是：所有的数据都会在同一个reducer端进行，数据量大的情况下可能

不能出结果，那么在这样的严格模式下，必须指定输出的条数。

hive (db_hive)> select * from emp order by empno desc;

二、sort by

Hive中指定了sort by，那么在每个reducer端都会做排序，也就是说保证了局部有序（每个reducer出来的数据是有序的，

但是不能保证所有的数据是有序的，除非只有一个reducer），好处是：执行了局部排序之后可以为接下去的全局排序提高不少的效率

（其实就是做一次归并排序就可以做到全局排序了）。

#我们可以设置一下reduce的个数

hive (db_hive)> set mapreduce.job.reduces= 3;

hive (db_hive)> set mapreduce.job.reduces;

mapreduce.job.reduces=3

#再执行的时候就会有3个reduce结果，在命令行上输出结果时默认合并了，

hive (db_hive)> select * from emp sort by empno asc;

#如果用下面语句将结果插入到本地目录，就会看到三个结果集

insert overwrite local directory'/opt/datas/sortby-res'select * from emp sort by empno asc;

[root@hadoop-senior ~]# ls /opt/datas/sortby-res/

000000_0  000001_0  000002_0

[root@hadoop-senior ~]# cat /opt/datas/sortby-res/000000_0

7654MARTINSALESMAN76981981-9-281250.01400.030

7698BLAKEMANAGER78391981-5-12850.0\N30

7782CLARKMANAGER78391981-6-92450.0\N10

7788SCOTTANALYST75661987-4-193000.0\N20

7839KINGPRESIDENT\N1981-11-175000.0\N10

7844TURNERSALESMAN76981981-9-81500.00.030

[root@hadoop-senior ~]# cat /opt/datas/sortby-res/000001_0

7499ALLENSALESMAN76981981-2-201600.0300.030

7521WARDSALESMAN76981981-2-221250.0500.030

7566JONESMANAGER78391981-4-22975.0\N20

7876ADAMSCLERK77881987-5-231100.0\N20

7900JAMESCLERK76981981-12-3950.0\N30

7934MILLERCLERK77821982-1-231300.0\N10

[root@hadoop-senior ~]# cat /opt/datas/sortby-res/000002_0

7369SMITHCLERK79021980-12-17800.0\N20

7902FORDANALYST75661981-12-33000.0\N20

三、distribute by

类似于MapReduce中分区partition，对数据进行分区，结合sort by进行使用；

distribute by必须要写在sort by之前，因为distribute by的功能是要先分区，sort by是对分区进行排序的；

#我这里是对deptno进行分区，然后对empno排序

hive (db_hive)> insert overwrite local directory '/opt/datas/distby-res' select * from emp distribute by deptno sort by empno asc;

#emp表的最后一个字段是deptno，从下面可以看出是按最后一个字段分区的

[root@hadoop-senior ~]# cat /opt/datas/distby-res/000000_0

7499ALLENSALESMAN76981981-2-201600.0300.030

7521WARDSALESMAN76981981-2-221250.0500.030

7654MARTINSALESMAN76981981-9-281250.01400.030

7698BLAKEMANAGER78391981-5-12850.0\N30

7844TURNERSALESMAN76981981-9-81500.00.030

7900JAMESCLERK76981981-12-3950.0\N30

[root@hadoop-senior ~]# cat /opt/datas/distby-res/000001_0

7782CLARKMANAGER78391981-6-92450.0\N10

7839KINGPRESIDENT\N1981-11-175000.0\N10

7934MILLERCLERK77821982-1-231300.0\N10

[root@hadoop-senior ~]# cat /opt/datas/distby-res/000002_0

7369SMITHCLERK79021980-12-17800.0\N20

7566JONESMANAGER78391981-4-22975.0\N20

7788SCOTTANALYST75661987-4-193000.0\N20

7876ADAMSCLERK77881987-5-231100.0\N20

7902FORDANALYST75661981-12-33000.0\N20

四、cluster by

当distribute by和sort by字段相同时，可以使用cluster by；

cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。所以最终的结果是每个Reduce处理的数据范围不重叠，

而且每个Reduce内的数据是排序的，而且可以打到全局有序的结果。

##

hive (db_hive)> insert overwrite local directory '/opt/datas/cluster-res' select * from emp  cluster by empno;   

##

[root@hadoop-senior ~]# ls /opt/datas/cluster-res/

000000_0  000001_0  000002_0

[root@hadoop-senior ~]# cat /opt/datas/cluster-res/000000_0

7521WARDSALESMAN76981981-2-221250.0500.030

7566JONESMANAGER78391981-4-22975.0\N20

7698BLAKEMANAGER78391981-5-12850.0\N30

7782CLARKMANAGER78391981-6-92450.0\N10

7788SCOTTANALYST75661987-4-193000.0\N20

7839KINGPRESIDENT\N1981-11-175000.0\N10

7902FORDANALYST75661981-12-33000.0\N20

[root@hadoop-senior ~]# cat /opt/datas/cluster-res/000001_0

7369SMITHCLERK79021980-12-17800.0\N20

7654MARTINSALESMAN76981981-9-281250.01400.030

7876ADAMSCLERK77881987-5-231100.0\N20

7900JAMESCLERK76981981-12-3950.0\N30

[root@hadoop-senior ~]# cat /opt/datas/cluster-res/000002_0

7499ALLENSALESMAN76981981-2-201600.0300.030

7844TURNERSALESMAN76981981-9-81500.00.030

7934MILLERCLERK77821982-1-231300.0\N10

五、总结

OrderBy

全局排序，一个Reduce

Sort By

每个reduce内部进行排序，全局不是排序

Distribute By

类似MR中partition，进行分区，结合sort by使用

Cluster By

当distribute和sort字段相同时，使用方式

2.12 Hivet中order by，sort by、distribute by和cluster by的更多相关文章

hive中order by,sort by, distribute by, cluster by的用法
1.order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数 ...
hive中order by ,sort by ,distribute by, cluster by 的区别（**很详细**）
hive 查询语法 select [all | distinct] select_ condition, select_ condition from table_name a [join table ...
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by以及 Cluster By
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set h ...
[转载]hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
Hive 中的 order by, sort by, distribute by 与 cluster by
Order By order by 会对输入做全排序, 因此只有一个Reducer(多个Reducer无法保证全局有序), 然而只有一个Reducer, 会导致当输入规模较大时, 消耗较长的计算时间. ...
hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序) 只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set ...
[大数据相关] Hive中的全排序：order by,sort by, distribute by
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序. 现在学了hive,写sql大家都很熟悉,如果一个order by解决 ...
hive 排序 order by sort by distribute by cluster by
order by: order by是全局排序,受hive.mapred.mode的影响. 使用orderby有一些限制: 1.在严格模式下(hive.mapred.mod ...

随机推荐

tree related problems (update continuously)
leetcode Binary Tree Level Order Traversal 这道题是要进行二叉树的层次遍历.对于层次遍历,最简单直观的办法就是进行BFS.于是我们仅仅须要维护一个队列就能够了 ...
mysql启动warning: World-writable config file
如果在启动warning: World-writable config file /home/mysql/my.cnf is ignored原因:my.cnf的读取权限进行了设置,不允许World-w ...
h5页面测试
转自:http://www.blogjava.net/qileilove/archive/2014/07/24/416154.html?utm_source=tuicool&utm_mediu ...
07 http内容压缩
一:http内容压缩思考: Content-Length在之前的学习中,我们知道,代表返回的主体的长度但此处,为什么返回的主体长度和content-length不一致呢? 原因在于: Conten ...
IOS8 通知中心(Notification Center)新特性
本文转载至 http://blog.csdn.net/jinkaiouyang/article/details/30029441 ios手机apple通知中心notificationCenter ...
Unable to run Kiwi tests on iOS8 device
本文转载至 http://stackoverflow.com/questions/25871601/unable-to-run-kiwi-tests-on-ios8-device 5down vote ...
UIAutomator 2
UIAutomator 2 While the API remains almost the same, the internal implementation has changed and we ...
javascript学习第一天
从大学第一次接触到JavaScript,到现在一直是个软肋,之前也是学习过一遍,但是缺乏系统学习,基础不牢,那么今天开始从基础部分学起来,今天是第一天,每天至少要保证效率,也要保证学习质量. 恩,要按 ...
MSP430G2553需要注意的一些参数
转载请注明出处:http://www.cnblogs.com/connorzx/p/3632952.html 把一些具体芯片信息列出来,以便于查看. 1.时钟 (1)MCLK,Master Clock ...
BZOJ 1621 [Usaco2008 Open]Roads Around The Farm分岔路口：分治递归
题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id=1621 题意: 约翰的N(1≤N≤1,000,000,000)只奶牛要出发去探索牧场四周的土 ...

2.12 Hivet中order by，sort by、distribute by和cluster by

2.12 Hivet中order by，sort by、distribute by和cluster by的更多相关文章

随机推荐

热门专题