hive的 order by & distribute by & cluter by

我们应该都清楚order by 的含义：

根据某个字段对输出的数据排序，因为只有一个reducer，所以查询效率较慢。

那么hive中，另外两个排序，distribute by和cluster by的含义是什么呢？

distribute by 分区排序

直接上例子，hive中有张工资表：salary，字段是部门id--department_id，姓名--name，薪水--salary

department_id	name	salary
1	张三	3500
2	李一	2800
1	王五	5000
2	赵六	6000

我们想要按部门分区，再按部门中员工工资由高到低排序：

select * from salary distribute by department_id sort by salary;

department_id	name	salary
1	张三	3500
1	王五	5000
2	李一	2800
2	赵六	6000

可以看到结果按部门做了分区，每个部门数据按薪水做了排序。

观察数据的话，每个文件中存储了相同分区的数据。

因为每个分区使用一个reducer，所以设置的reducer个数应该大于等于结果的分区数，

不然会报错。

补充：

设置reducer个数的方法：

set mapreduce.job.reduces=-1；

设为默认值，系统分配reduce的个数。

设置好后检查一下：

set mapreduce.job.reduces；

（如果reducer的个数大于分区数会产生空文件，reducer的个数小于分区数则会报错）

说明：

类似于mr中的分区，要用多个reducer处理，最终输出多个文件结果
当分区字段和排序字段不同的时候使用，需和sort by结合

cluster by

当ditribute by ...sort by的字段是同一个字段时，可以用cluster by 代替。

但是cluster by的排序只支持倒序，不能指定asc或desc。

hive的 order by & distribute by & cluter by的更多相关文章

[转]hive中order by,distribute by,sort by,cluster by
转至http://my.oschina.net/repine/blog/296562 order by,distribute by,sort by,cluster by 查询使用说明 1 2 3 4 ...
Hive中order by，sort by，distribute by，cluster by的区别
一:order by order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间.关于 ...
hive中order by、distribute by、sort by和cluster by的区别和联系
hive中order by.distribute by.sort by和cluster by的区别和联系 order by order by 会对数据进行全局排序,和oracle和mysql等数据库中 ...
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
hive 排序 order by sort by distribute by cluster by
order by: order by是全局排序,受hive.mapred.mode的影响. 使用orderby有一些限制: 1.在严格模式下(hive.mapred.mod ...
[转载]hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
hive中order by,sort by, distribute by, cluster by的用法
1.order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数 ...
Hive之Order,Sort,Cluster and Distribute By
测试数据 create table sort_test( id int, name string ) row format delimited fields terminated by '\t' li ...
hive中order by ,sort by ,distribute by, cluster by 的区别（**很详细**）
hive 查询语法 select [all | distinct] select_ condition, select_ condition from table_name a [join table ...

随机推荐

js 闭包理解 copy
闭包(closure)是Javascript语言的一个难点,也是它的特色,很多高级应用都要依靠闭包实现. 下面就是我的学习笔记,对于Javascript初学者应该是很有用的. 一.变量的作用域要理解 ...
swift 属性值变化
如果创建了一个结构体的实例并将其赋值给一个常量,则无法修改该实例的任何属性,即使有属性被声明为变量也不行. 这种行为是由于结构体(struct)属于值类型.当值类型的实例被声明为常量的时候,它的所有属 ...
div同时使用两个class
<p class="con hide">...</p> 1:使用空格分割 2:这个段落将同时应用这两个 class 制定的规则 3:如果二者有重叠,后者覆盖 ...
Eclipse安装和使用windowbuilder插件开发图形界面
windowbuilder插件的安装 windowbuilder的官方网站:http://www.eclipse.org/windowbuilder/download.php 在Eclipse中安装 ...
SpringBoot注册Servlet/Filter/Listener
由于SpringBoot默认是以jar包的方式启动嵌入式的Servlet容器来启动SpringBoot的web应用,那么没有web.xml文件,如何配置我们的三大Web基础组件呢? 通过使用XXXRe ...
680. Valid Palindrome II
static int wing=[]() { std::ios::sync_with_stdio(false); cin.tie(NULL); ; }(); class Solution { publ ...
2018.12.21 bzoj3238: [Ahoi2013]差异（后缀自动机）
传送门后缀自动机好题. 题意: 做法:samsamsam 废话考虑翻转字串,这样后缀的最长公共前缀等于前缀的最长公共后缀. 然后想到parentparentparent树上面两个串的最长公共后缀跟 ...
Apache和nginx 域名配置
apache配置一.hosts配置: 1.用编辑器打开hosts文件,位置:C:\Windows\System32\drivers\etc目录下 2.在hosts文件里添加自己的域名配置,配置规则如 ...
IPython:一种交互式计算和开发环境（魔术命令，快捷键）
%run命令在IPython会话环境中,所有文件都可以通过%run命令当做Python程序来运行. 假设在ipython_script_test.py中存放了一段简单的脚本,如下所示: def f( ...
使用Wireshark分析网络数据
一. Wireshark中查看TCP的三次握手和四次挥手: 上面的数据发送和接收两部分的info提示都是 [TCP segment of a reassembled PDU],网上的解释是TCP分片的 ...

hive的 order by & distribute by & cluter by

hive的 order by & distribute by & cluter by的更多相关文章

随机推荐

热门专题