2.12 Hivet中order by，sort by、distribute by和cluster by

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy

一、order by

对全局数据的排序，仅仅只有一个reduce；

Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，

所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，

也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会消耗很长的时间去执行。

这里跟传统的sql还有一点区别：如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须

指定limit来限制输出条数，原因是：所有的数据都会在同一个reducer端进行，数据量大的情况下可能

不能出结果，那么在这样的严格模式下，必须指定输出的条数。

hive (db_hive)> select * from emp order by empno desc;

二、sort by

Hive中指定了sort by，那么在每个reducer端都会做排序，也就是说保证了局部有序（每个reducer出来的数据是有序的，

但是不能保证所有的数据是有序的，除非只有一个reducer），好处是：执行了局部排序之后可以为接下去的全局排序提高不少的效率

（其实就是做一次归并排序就可以做到全局排序了）。

#我们可以设置一下reduce的个数

hive (db_hive)> set mapreduce.job.reduces= 3;

hive (db_hive)> set mapreduce.job.reduces;

mapreduce.job.reduces=3

#再执行的时候就会有3个reduce结果，在命令行上输出结果时默认合并了，

hive (db_hive)> select * from emp sort by empno asc;

#如果用下面语句将结果插入到本地目录，就会看到三个结果集

insert overwrite local directory'/opt/datas/sortby-res'select * from emp sort by empno asc;

[root@hadoop-senior ~]# ls /opt/datas/sortby-res/

000000_0  000001_0  000002_0

[root@hadoop-senior ~]# cat /opt/datas/sortby-res/000000_0

7654MARTINSALESMAN76981981-9-281250.01400.030

7698BLAKEMANAGER78391981-5-12850.0\N30

7782CLARKMANAGER78391981-6-92450.0\N10

7788SCOTTANALYST75661987-4-193000.0\N20

7839KINGPRESIDENT\N1981-11-175000.0\N10

7844TURNERSALESMAN76981981-9-81500.00.030

[root@hadoop-senior ~]# cat /opt/datas/sortby-res/000001_0

7499ALLENSALESMAN76981981-2-201600.0300.030

7521WARDSALESMAN76981981-2-221250.0500.030

7566JONESMANAGER78391981-4-22975.0\N20

7876ADAMSCLERK77881987-5-231100.0\N20

7900JAMESCLERK76981981-12-3950.0\N30

7934MILLERCLERK77821982-1-231300.0\N10

[root@hadoop-senior ~]# cat /opt/datas/sortby-res/000002_0

7369SMITHCLERK79021980-12-17800.0\N20

7902FORDANALYST75661981-12-33000.0\N20

三、distribute by

类似于MapReduce中分区partition，对数据进行分区，结合sort by进行使用；

distribute by必须要写在sort by之前，因为distribute by的功能是要先分区，sort by是对分区进行排序的；

#我这里是对deptno进行分区，然后对empno排序

hive (db_hive)> insert overwrite local directory '/opt/datas/distby-res' select * from emp distribute by deptno sort by empno asc;

#emp表的最后一个字段是deptno，从下面可以看出是按最后一个字段分区的

[root@hadoop-senior ~]# cat /opt/datas/distby-res/000000_0

7499ALLENSALESMAN76981981-2-201600.0300.030

7521WARDSALESMAN76981981-2-221250.0500.030

7654MARTINSALESMAN76981981-9-281250.01400.030

7698BLAKEMANAGER78391981-5-12850.0\N30

7844TURNERSALESMAN76981981-9-81500.00.030

7900JAMESCLERK76981981-12-3950.0\N30

[root@hadoop-senior ~]# cat /opt/datas/distby-res/000001_0

7782CLARKMANAGER78391981-6-92450.0\N10

7839KINGPRESIDENT\N1981-11-175000.0\N10

7934MILLERCLERK77821982-1-231300.0\N10

[root@hadoop-senior ~]# cat /opt/datas/distby-res/000002_0

7369SMITHCLERK79021980-12-17800.0\N20

7566JONESMANAGER78391981-4-22975.0\N20

7788SCOTTANALYST75661987-4-193000.0\N20

7876ADAMSCLERK77881987-5-231100.0\N20

7902FORDANALYST75661981-12-33000.0\N20

四、cluster by

当distribute by和sort by字段相同时，可以使用cluster by；

cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。所以最终的结果是每个Reduce处理的数据范围不重叠，

而且每个Reduce内的数据是排序的，而且可以打到全局有序的结果。

##

hive (db_hive)> insert overwrite local directory '/opt/datas/cluster-res' select * from emp  cluster by empno;   

##

[root@hadoop-senior ~]# ls /opt/datas/cluster-res/

000000_0  000001_0  000002_0

[root@hadoop-senior ~]# cat /opt/datas/cluster-res/000000_0

7521WARDSALESMAN76981981-2-221250.0500.030

7566JONESMANAGER78391981-4-22975.0\N20

7698BLAKEMANAGER78391981-5-12850.0\N30

7782CLARKMANAGER78391981-6-92450.0\N10

7788SCOTTANALYST75661987-4-193000.0\N20

7839KINGPRESIDENT\N1981-11-175000.0\N10

7902FORDANALYST75661981-12-33000.0\N20

[root@hadoop-senior ~]# cat /opt/datas/cluster-res/000001_0

7369SMITHCLERK79021980-12-17800.0\N20

7654MARTINSALESMAN76981981-9-281250.01400.030

7876ADAMSCLERK77881987-5-231100.0\N20

7900JAMESCLERK76981981-12-3950.0\N30

[root@hadoop-senior ~]# cat /opt/datas/cluster-res/000002_0

7499ALLENSALESMAN76981981-2-201600.0300.030

7844TURNERSALESMAN76981981-9-81500.00.030

7934MILLERCLERK77821982-1-231300.0\N10

五、总结

OrderBy

全局排序，一个Reduce

Sort By

每个reduce内部进行排序，全局不是排序

Distribute By

类似MR中partition，进行分区，结合sort by使用

Cluster By

当distribute和sort字段相同时，使用方式

2.12 Hivet中order by，sort by、distribute by和cluster by的更多相关文章

hive中order by,sort by, distribute by, cluster by的用法
1.order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数 ...
hive中order by ,sort by ,distribute by, cluster by 的区别（**很详细**）
hive 查询语法 select [all | distinct] select_ condition, select_ condition from table_name a [join table ...
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by以及 Cluster By
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set h ...
[转载]hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
Hive 中的 order by, sort by, distribute by 与 cluster by
Order By order by 会对输入做全排序, 因此只有一个Reducer(多个Reducer无法保证全局有序), 然而只有一个Reducer, 会导致当输入规模较大时, 消耗较长的计算时间. ...
hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序) 只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set ...
[大数据相关] Hive中的全排序：order by,sort by, distribute by
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序. 现在学了hive,写sql大家都很熟悉,如果一个order by解决 ...
hive 排序 order by sort by distribute by cluster by
order by: order by是全局排序,受hive.mapred.mode的影响. 使用orderby有一些限制: 1.在严格模式下(hive.mapred.mod ...

随机推荐

windows下检验caffe是否配置正确
windows下检验caffe是否配置正确:(注:不考虑搭建caffe的编译环境,而是直接使用caffe官网提供的二进制文件) windows版本源码以及二进制库文件下载地址:https://gith ...
08 comet反向ajax
一:HTTP协议与技久链接+分块传输---->反向ajax 反向ajax又叫comet, server push,服务器推技术. 应用范围: 网页聊天服务器,, 新浪微博在线聊天,google ...
Struts2 (三) （转载）
前面一直在说Action可以是一个普通的Java类,与Servlet API完全分离,但是为了实现业务逻辑,Action需要使用HttpServletRequest内容.Struts 2设计的精巧之处 ...
MySQL 更新和删除
更新和删除的操作SQL语句比較简单,只是要注意使用UPDATE的时候.要注意WEHER条件的限制,以下的语句是仅仅更新id为10005的email地址,假设不加WHERE语句限制,那么将表中全部的em ...
EasyRTMP实现Demux解析MP4文件进行rtmp推送实现RTMP直播功能
本文转自EasyDarwin团队Kim的博客:http://blog.csdn.net/jinlong0603/article/details/52965101 前面已经介绍过EasyRTMP,这里不 ...
EasyDarwin开发出类似于美拍、秒拍的短视频拍摄SDK:EasyVideoRecorder
EasyVideoRecorder Github:https://github.com/EasyDarwin/EasyVideoRecorder EasyVideoRecorder作为一款短视频拍摄的 ...
mysql-test-run.pl
wget https://raw.githubusercontent.com/mysql/mysql-server/5.7/mysql-test/mysql-test-run.pl
【网络基础系列二】BOOTP、DHCP协议
BOOTP 含义:BOOT Protocol,引导协议作用:引导无盘计算机或者第一次启动的计算机获取以下网络配置信息: 主机的IP地址.子网掩码路由器(网关)的IP地址 DNS服务器IP地址 C/ ...
src源dst目标
dst是destination的缩写,表目的 src是source的缩写,表源
atol实现【转】
int my_atoi(const char *str) { assert(str != NULL); ; ; while(*str == ' ' || *str == '\n' || *str == ...

2.12 Hivet中order by，sort by、distribute by和cluster by

2.12 Hivet中order by，sort by、distribute by和cluster by的更多相关文章

随机推荐

热门专题