order by：

order by是全局排序，受hive.mapred.mode的影响。

使用orderby有一些限制：

1、在严格模式下（hive.mapred.mode=strict），orderby必须跟limit一起使用（？）。

原因：在执行orderby时，hive使用一个reducer，如果查询结果量很大，这个reducer执行起来会很费劲，所以必须要限制查询输出结果的数量。

limit n 之后，reducer处理的数据有n * count(map)条数据。

2、在非严格模式下（默认，hive.mapred.mode=nonstrict），orderby可以不跟limit一起使用。

sort by：

对每个reducer里的数据进行排序，如果有多个reducer执行查询，则查询出来的数据是部分排序的。。

也可以使用limit n来减少reducer处理的数据量。

distribute by：

hive执行查询时，在mr的分区结果根据distributeby的字段进行分区，这样相同字段的数据由同一个reducer处理。

cluster by：

clusterby是distributeby和sortby的快捷方式，根据clusterby字段进行分区并排序。

例子

某一列的数据如下：

对这个字段distributeby后，

reducer1里的数据是：

reducer2里的数据是：

说明：同一个值（x1）交由同一个reducer处理，数据也是有序的。

hive 排序 order by sort by distribute by cluster by的更多相关文章

hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
[转载]hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
hive中order by ,sort by ,distribute by, cluster by 的区别（**很详细**）
hive 查询语法 select [all | distinct] select_ condition, select_ condition from table_name a [join table ...
hive中order by,sort by, distribute by, cluster by的用法
1.order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数 ...
Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by以及 Cluster By
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set h ...
hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序) 只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set ...
[大数据相关] Hive中的全排序：order by,sort by, distribute by
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序. 现在学了hive,写sql大家都很熟悉,如果一个order by解决 ...
Hive 中的 order by, sort by, distribute by 与 cluster by
Order By order by 会对输入做全排序, 因此只有一个Reducer(多个Reducer无法保证全局有序), 然而只有一个Reducer, 会导致当输入规模较大时, 消耗较长的计算时间. ...
[转]hive中order by,distribute by,sort by,cluster by
转至http://my.oschina.net/repine/blog/296562 order by,distribute by,sort by,cluster by 查询使用说明 1 2 3 4 ...

随机推荐

利用wget配合bash脚本同时下载多个文件
先把需要下载的文件写入到一个文件中,命名为urls.txt,比如: http://blog.is36.com/a.jpg http://blog.is36.com/b.jpg http://blog. ...
java泛型---通配符,泛型嵌套
package generic; import java.util.ArrayList; import java.util.List; /** * ? -->通配符,类型不确定,用于声明变量| ...
certificate verify fails (https://gems.ruby-china.org错误
首先:执行这一步报错的背景是: 更换gems源, 通常执行 gem sources --add https://gems.ruby-china.org/ --remove https://rubyge ...
Spring统一异常处理
1.为什么要用Spring的统一异常处理? 项目中无论是controller层.service层还是dao层都会有异常发生.每个过程都单独处理异常,系统的代码耦合度高,工作量大且不好统一,维护的工作量 ...
Servlet Filter（过滤器）、Filter是如何实现拦截的、Filter开发入门
Servlet Filter(过滤器).Filter是如何实现拦截的.Filter开发入门 Filter简介 Filter也称之为过滤器,它是Servlet技术中最激动人心的技术,WEB开发人员通过F ...
px、pt和em的区别
(转载)http://www.1z1b.com/one-blog-a-week/px-em-pt/ 这里引用的是Jorux的“95%的中国网站需要重写CSS”的文章,题目有点吓人,但是确实是现在国内网 ...
Polymorphic form--多态表单
一个ruby on rails项目,用户和公司的模型都有地址. 我要创建一个地址表,包含用户和公司表的引用,比直接做下去要好一点,这回让我的数据库设计保持干净. 我的第一印象是,这似乎很难实现,外面所 ...
python之首字母大写
目录首字母大写算法说明代码实现首字母大写算法说明功能: 将传入的字符串第一个字母大写; 额外参数用来控制两种转换类型保持不变所有的字符转变为小写代码实现知识点 python 内置方 ...
tcpdump一个命令的剖析
简单介绍:用简单的话来定义tcpdump,就是:dump the traffic on a network,根据使用者的定义对网络上的数据包进行截获的包分析工具. tcpdump可以将网络中传送的数据 ...
c# 键值对照表
虚拟键值表虚拟键十六进制值十进制值相应键盘或鼠标键 VK_LBUTTON 1 1 鼠标左键 VK_RBUTTON 2 2 鼠标右键 VK_CANCEL 3 3 Ctrl-Break键 VK_M ...