ORDER BY

hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。

与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。

hive> set hive.mapred.mode=strict;

hive> select * from test order by id;

FAILED: SemanticException : In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error encountered near token 'id'

例子：

hive> set hive.mapred.mode=unstrict;

hive> select * from test order BY id ;

MapReduce Jobs Launched:

Job : Map:   Reduce:    Cumulative CPU: 1.88 sec   HDFS Read:  HDFS Write:  SUCCESS

Total MapReduce CPU Time Spent:  seconds  msec

OK

   a

   a

   b

   b

   c

   c

   d

   d

Time taken: 24.609 seconds, Fetched:  row(s)

从上面的日志可以看到：启动了一个reduce进行全局排序。

SORT BY

SORT BY不是全局排序，其在数据进入reducer前完成排序，因此在有多个reduce任务情况下，SORT BY只能保证每个reduce的输出有序，而不能保证全局有序。

注意：hive要求DISTRIBUTE BY语句出现在SORT BY语句之前。

你可以通过设置mapred.reduce.tasks的值来控制reduce的数，然后对reduce输出的结果做二次排序。

例子：

hive> set mapred.reduce.tasks=;

hive> select * from test sort BY id ;

MapReduce Jobs Launched:

Job : Map:   Reduce:    Cumulative CPU: 4.48 sec   HDFS Read:  HDFS Write:  SUCCESS

Total MapReduce CPU Time Spent:  seconds  msec

OK

   a

   b

   c

   d

   b

   c

   d

   a

Time taken: 29.574 seconds, Fetched:  row(s)

从上面的日志可以看到：启动了三个reduce分别排序，最后的结果不是有序的。

DISTRIBUTE BY with SORT BY

DISTRIBUTE BY能够控制map的输出在reduce中如何划分。其可以按照指定的字段对数据进行划分到不同的输出reduce/文件中。

DISTRIBUTE BY和GROUP BY有点类似，DISTRIBUTE BY控制reduce如何处理数据，而SORT BY控制reduce中的数据如何排序。

注意：hive要求DISTRIBUTE BY语句出现在SORT BY语句之前。

例子：

hive> select * from test distribute BY id sort by id asc;

Job : Map:   Reduce:    Cumulative CPU: 4.24 sec   HDFS Read:  HDFS Write:  SUCCESS

Total MapReduce CPU Time Spent:  seconds  msec

OK

   c

   c

   a

   a

   d

   d

   b

   b

Time taken: 29.89 seconds, Fetched:  row(s)

从上面的日志可以看到：启动了三个reduce分别排序，最后的结果不是有序的。

CLUSTER BY来代替

当DISTRIBUTE BY的字段和SORT BY的字段相同时，可以用CLUSTER BY来代替 DISTRIBUTE BY with SORT BY。

注意：CLUSTER BY不能添加desc或者asc。

例子：

hive> select * from test cluster by id asc;

FAILED: ParseException line : extraneous input 'asc' expecting EOF near '<EOF>'

hive> select * from test cluster by id ;

MapReduce Jobs Launched:

Job : Map:   Reduce:    Cumulative CPU: 4.58 sec   HDFS Read:  HDFS Write:  SUCCESS

Total MapReduce CPU Time Spent:  seconds  msec

OK

   c

   c

   a

   a

   d

   d

   b

   b

Time taken: 30.646 seconds, Fetched:  row(s)

从上面的日志可以看到：启动了三个reduce分别排序，最后的结果不是有序的。

怎样让最后的结果是有序的呢？

可以这样做：

hive> select a.* from (select * from test cluster by id ) a order by a.id ;

MapReduce Jobs Launched:

Job : Map:   Reduce:    Cumulative CPU: 4.5 sec   HDFS Read:  HDFS Write:  SUCCESS

Job : Map:   Reduce:    Cumulative CPU: 1.96 sec   HDFS Read:  HDFS Write:  SUCCESS

Total MapReduce CPU Time Spent:  seconds  msec

OK

   a

   a

   b

   b

   c

   c

   d

   d

Time taken: 118.261 seconds, Fetched:  row(s)

总结

ORDER BY是全局排序，但在数据量大的情况下，花费时间会很长
SORT BY是将reduce的单个输出进行排序，不能保证全局有序
DISTRIBUTE BY可以按指定字段将数据划分到不同的reduce中
当DISTRIBUTE BY的字段和SORT BY的字段相同时，可以用CLUSTER BY来代替 DISTRIBUTE BY with SORT BY。

Hive中的排序语法的更多相关文章

Hive中的排序和分组（对map和reduce的影响，值得一看！）
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set ...
Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by以及 Cluster By
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set h ...
hive中的全排序
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出现在学了Hive,写sql大家都很熟悉,如果一个order by解决了全排序还用那么麻烦写mapred ...
mysql分组排序取最大值所在行，类似hive中row_number() over partition by
如下图, 计划实现 :按照 parent_code 分组, 取组中code最大值所在的整条记录,如红色部分.(类似hive中: row_number() over(partition by)) sel ...
[大数据相关] Hive中的全排序：order by,sort by, distribute by
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序. 现在学了hive,写sql大家都很熟悉,如果一个order by解决 ...
Hive 中的四种排序详解，再也不会混淆用法了
Hive 中的四种排序排序操作是一个比较常见的操作,尤其是在数据分析的时候,我们往往需要对数据进行排序,hive 中和排序相关的有四个关键字,今天我们就看一下,它们都是什么作用. 数据准备下面我们 ...
Hive 中Join的专题---Join详解
1.什么是等值连接? 2.hive转换多表join时,如果每个表在join字句中,使用的都是同一个列,该如何处理? 3.LEFT,RIGHT,FULL OUTER连接的作用是什么? 4.LEFT或RI ...
HIVE中的order by操作
hive中常见的高级查询包括:group by.Order by.join.distribute by.sort by.cluster by.Union all.今天我们来看看order by操作,O ...
第2节 hive基本操作：12、hive当中的hql语法
3.2. hive查询语法 3.2.1.SELECT https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 基本 ...

随机推荐

C#中修改Dll文件 (反编译后重新编译)
Dll文件生成后,如没有源代码,又要修改其中内容可以用微软自带的ildasm和ilasm程序先用ildasm将dll文件反编译成il文件 ildasm Test.dll /out=Test.il ...
[SQL]SQL语言入门级教材_跟我学SQL（六）
跟我学SQL:(一)数据查询且不说你是否正在从事编程方面的工作或者不打算学习SQL,可事实上几乎每一位开发者最终都会遭遇它.你多半还用不着负责创建和维持某个,但你怎么着也该知道以下的一些有关的SQL ...
abap case when 例子
DATA: gv_1 TYPE c. DATA: gv_2 TYPE i. gv_2 = 60. IF gv_2 >= 0 AND gv_2 < 60 . gv_1 = 'A'. ELSE ...
js json与字符串转换
<!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <m ...
div 滚动定位代码
var thisheith; $(function () { var divid = '#14681-121320-197209'; $(di ...
ZOJ 3407 Doraemon's Cake Machine [数学]
题意: 最多有2000组测试样例,每组样例代表n,m; n代表要把蛋糕平分的份数,m代表必须进行多少次操作. 一共有三种操作 1.竖切经过蛋糕圆心,将蛋糕整个向下切. 2.横切平行于蛋糕平 ...
How to Resize a Datafile (文档 ID 1029252.6)
APPLIES TO: Oracle Database - Enterprise Edition - Version 9.2.0.1 and laterInformation in this docu ...
Grub2 使用摘记
>>>不使用子菜单 # sudo vim /etc/default/grub添加配置:GRUB_DISABLE_SUBMENU=yFrom:http://tieba.baidu.co ...
jqGrid(struts2+jdbc+jsp)增删改查的例子
前几日一直在找关于Java操作jqgrid返回json的例子,在网上也看了不少东西,结果都没几个合理的,于是本人结合网上的零散数据进行整理,完成了一个比较完整的jqgrid小例子,考虑到还有很多 ...
Cocos2d-x3.2 使用物理引擎进行碰撞检测[转]
通常在游戏简单逻辑判断和模拟真实的物理世界时,我们只需要在定时器中判断游戏中各个精灵的条件是否满足判断条件就可以了.例如,在飞机大战中,判断我方子弹和敌机是否发生碰撞一般在定时器中通过敌机所在位置的矩 ...

Hive中的排序语法

ORDER BY

SORT BY

DISTRIBUTE BY with SORT BY

CLUSTER BY来代替

总结

Hive中的排序语法的更多相关文章

随机推荐

热门专题