order by：

order by是全局排序，受hive.mapred.mode的影响。

使用orderby有一些限制：

1、在严格模式下（hive.mapred.mode=strict），orderby必须跟limit一起使用（？）。

原因：在执行orderby时，hive使用一个reducer，如果查询结果量很大，这个reducer执行起来会很费劲，所以必须要限制查询输出结果的数量。

limit n 之后，reducer处理的数据有n * count(map)条数据。

2、在非严格模式下（默认，hive.mapred.mode=nonstrict），orderby可以不跟limit一起使用。

sort by：

对每个reducer里的数据进行排序，如果有多个reducer执行查询，则查询出来的数据是部分排序的。。

也可以使用limit n来减少reducer处理的数据量。

distribute by：

hive执行查询时，在mr的分区结果根据distributeby的字段进行分区，这样相同字段的数据由同一个reducer处理。

cluster by：

clusterby是distributeby和sortby的快捷方式，根据clusterby字段进行分区并排序。

例子

某一列的数据如下：

对这个字段distributeby后，

reducer1里的数据是：

reducer2里的数据是：

说明：同一个值（x1）交由同一个reducer处理，数据也是有序的。

hive 排序 order by sort by distribute by cluster by的更多相关文章

hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
[转载]hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
hive中order by ,sort by ,distribute by, cluster by 的区别（**很详细**）
hive 查询语法 select [all | distinct] select_ condition, select_ condition from table_name a [join table ...
hive中order by,sort by, distribute by, cluster by的用法
1.order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数 ...
Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by以及 Cluster By
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set h ...
hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序) 只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set ...
[大数据相关] Hive中的全排序：order by,sort by, distribute by
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序. 现在学了hive,写sql大家都很熟悉,如果一个order by解决 ...
Hive 中的 order by, sort by, distribute by 与 cluster by
Order By order by 会对输入做全排序, 因此只有一个Reducer(多个Reducer无法保证全局有序), 然而只有一个Reducer, 会导致当输入规模较大时, 消耗较长的计算时间. ...
[转]hive中order by,distribute by,sort by,cluster by
转至http://my.oschina.net/repine/blog/296562 order by,distribute by,sort by,cluster by 查询使用说明 1 2 3 4 ...

随机推荐

jmeter -- 在beanshell中拿到请求body参数和header参数
beanshell: import org.apache.jmeter.config.Arguments; import org.apache.jmeter.protocol.http.control ...
css 实现元素长宽等比缩放
实现思路(长宽比2:1): 以父级元素为基准, 子级 width:100%; (也就是父级宽度的 100%), padding-top:50% (也就是父级宽度的 50%, 根据 css 规范, pa ...
前端h5遇到的问题及解决办法
以后遇到的问题都记录在这里. 1.由于先有的pc端后需求手机端,所以没有用框架做适配,而是手动媒体查询进行手机端.pad.pc 三端适配,界面比较简单,所以这么做也不复杂,就是坑比较多. 2.移动和p ...
IntelliJ IDEA使用心得之问题篇；
在使用IDEA的时候,难免会遇到一些问题,总结下来,一是备忘,而是分享. 1.IDEA代码编辑区无法编辑? 当系统时间被调整到当前时间以前时会导致IDEA无法编辑,有3中解决方案:1)重启IDEA:( ...
java的NIO和AIO
1. 什么是NIO NIO是New I/O的简称,与旧式的基于流的I/O方法相对,从名字看,它表示新的一套Java I/O标准.它是在Java 1.4中被纳入到JDK中的,并具有以下特性: NIO是 ...
NoSQL之Cassandra
http://www.cnblogs.com/LBSer/p/3328841.html 9月初听了一个讲座,演讲者是张月同学,他给我们分享了Cassandra nosql数据库,讲得很精彩,听完之后收 ...
Idea 2017.3以后版本的破解（亲测有效）转
转自:http://www.mamicode.com/info-detail-2147137.html 自从升级到idea2017.3之后,之前的license server破解方法貌似已失效.于是找 ...
SpringMVC 之 Hello World 入门
1 准备开发环境和运行环境依赖 jar 包下载,如下图所示: 2 前端控制器的配置在我们的web.xml中添加如下配置: <!-- The front controller of this ...
虚拟机VirtualBox安装
一.安装VirtualBox 下载地址:https://www.virtualbox.org/wiki/Downloads 一直点击下一步到结束就行了. 二.启动报错:“获取 VirtualBox C ...
linux的文件基本属性
Linux系统是一种典型的多用户系统,不同的用户处于不同的地位,拥有不同的权限.为了保护系统的安全性,Linux系统对不同的用户访问同一文件(包括目录文件)的权限做了不同的规定 1.在Linux中我们 ...