Hive中order by，sort by，distribute by，cluster by的区别

一：order by

order by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。关于order by的详细介绍请参考这篇文章：Hive Order by操作。

二：sort by

sort by不是全局排序，其在数据进入reducer前完成排序，因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只会保证每个reducer的输出有序，并不保证全局有序。sort by不同于order by，它不受Hive.mapred.mode属性的影响，sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定)，对输出的数据再执行归并排序，即可得到全部结果。

三：distribute by

distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法。sort by为每个reduce产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。因此，distribute by经常和sort by配合使用。

注：Distribute by和sort by的使用场景

1.Map输出的文件大小不均。

2.Reduce输出文件大小不均。

3.小文件过多。

4.文件超大。

四：cluster by

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是倒叙排序，不能指定排序规则为ASC或者DESC。

示例：

#sort by

hive (hive)> select * from user;
OK
id name
1 lavimer
2 liaozhongmin
3 liaozemin

使用sort by按id降序排列：

hive (hive)> select * from user sort by id desc;
//MapReduce...
Execution completed successfully
Mapred Local Task Succeeded . Convert the Join into MapJoin
OK
id name
3 liaozemin
2 liaozhongmin
1 lavimer
Time taken: 3.828 seconds

#distribute by

hive (hive)> select * from user;
OK
id name
1 lavimer
2 liaozhongmin
3 liaozemin
100 hello
200 hadoop

#设置reduce的个数

hive (hive)> set mapred.reduce.tasks=2;
hive (hive)> set mapred.reduce.tasks;
mapred.reduce.tasks=2

#使用带distribute by的数据从user表中导出数据

hive (hive)> insert overwrite local directory '/usr/local/src/user.txt' select * from user distribute by id;
//MapReduce...
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 2

注：从上述语句执行过程可以看到启动了两个Reducer。

#导出到本地的数据

[root@liaozhongmin5 src]# cd user.txt/
[root@liaozhongmin5 user.txt]# ll
总用量 8
-rwxrwxrwx. 1 root root 36 1月 30 14:35 000000_0
-rwxrwxrwx. 1 root root 22 1月 30 14:35 000001_0
[root@liaozhongmin5 user.txt]# more 000000_0
2 liaozhongmin
100 hello
200 hadoop
[root@liaozhongmin5 user.txt]# more 000001_0
1 lavimer
3 liaozemin
[root@liaozhongmin5 user.txt]#

注：从上述结果中，我们可以看到数据被分发到了两个Reducer中处理。

#distribute by和sort by结合使用

hive (hive)> select * from temperature;
OK
year tempra
2008 30`C
2008 35`C
2008 32.5`C
2008 31.5`C
2008 31`C
2015 41`C
2015 39`C
2015 36`C
2015 33`C
2015 35`C
2015 37`C

#根据年份和气温对气象数据进行排序，以确保所具有相同年份的行最终都在一个reduce分区中。

hive (hive)> select * from temperature distribute by year sort by year asc,tempra desc;
//MapReduce...
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 2
//MapReduce...
OK
year tempra
2008 35`C
2008 32.5`C
2008 31`C
2008 31.5`C
2008 30`C
2015 41`C
2015 39`C
2015 37`C
2015 36`C
2015 35`C
2015 33`C
Time taken: 17.358 seconds

Hive中order by，sort by，distribute by，cluster by的区别的更多相关文章

hive中order by ,sort by ,distribute by, cluster by 的区别（**很详细**）
hive 查询语法 select [all | distinct] select_ condition, select_ condition from table_name a [join table ...
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
[转载]hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
hive中order by,sort by, distribute by, cluster by的用法
1.order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数 ...
hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序) 只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set ...
hive 排序 order by sort by distribute by cluster by
order by: order by是全局排序,受hive.mapred.mode的影响. 使用orderby有一些限制: 1.在严格模式下(hive.mapred.mod ...
hive中order by、distribute by、sort by和cluster by的区别和联系
hive中order by.distribute by.sort by和cluster by的区别和联系 order by order by 会对数据进行全局排序,和oracle和mysql等数据库中 ...
Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by以及 Cluster By
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set h ...
[大数据相关] Hive中的全排序：order by,sort by, distribute by
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序. 现在学了hive,写sql大家都很熟悉,如果一个order by解决 ...

随机推荐

evernote如何笔记共享
首先将你的笔记共享访问你的共享笔记地址,就可看到共享笔记的内容了 https://www.evernote.com/pub/用户名/笔记名 https://www.evernote.com/ ...
RHEL6 - 图形化设置IP
RHEL6下我们除了麻烦地修改网卡的主配置文件外,还可以通过setup,system-config-network等工具指令打开网卡的图形化界面 #setup #system-config-net ...
Spring.net(二)----初探IOC容器
我在上一篇关于Spring.net的文章“Spring.NET框架简介及模块说明 ”中很详细的介绍了,本文就不旧话从提.我门就直奔主题吧. 1.首先了解两个接口. IObjectFactory接口和 ...
android 搜索自动匹配关键字并且标红
这个效果主要是为了着重表现搜索关键字的 . 1. 单关键字匹配若只需匹配搜索 ...
Android oncreate onupgrade什么时候被调用
在学习Android数据库SQLite之前,必须意识到这一点,目前在Android系统中集成的是SQLite3 版本,SQLite是一个开源的嵌入式数据库,他支持NULL.INTEGER.REAL.T ...
消息队列内核结构和msgget、msgctl 函数
一.消息队列 1.消息队列提供了一个从一个进程向另外一个进程发送一块数据的方法 2.每个数据块都被认为是有一个类型,接收者进程接收的数据块可以有不同的类型值 3.消息队列与管道不同的是,消息队列是基于 ...
Google Guice之作用域
默认情况下,Guice获取一个实例时.每次都会返回一个新的对象. 这个行为能够通过scopes进行配置.Scopes同意你复用实例: 应用整个生命周期(@Singleton),会话(@Session) ...
Testbench
作者:桂. 时间:2017-08-15 07:11:50 链接:http://www.cnblogs.com/xingshansi/p/7363048.html 前言 Testbench主要用于mo ...
CSS选择器的优化
前面花了几个篇幅着重介绍了CSS的选择器的使用,我将其分成三个部分:CSS基本选择器.CSS属性选择器以及CSS伪类选择器.那么今天我主要想和大家一起来学习——CSS选择器方面的性能优化.因为对性能这 ...
依据经纬度返回地址的url -- GoogleMap
latlng=34,112">https://maps.googleapis.com/maps/api/geocode/xml? latlng=34,112

Hive中order by，sort by，distribute by，cluster by的区别

Hive中order by，sort by，distribute by，cluster by的区别的更多相关文章

随机推荐

热门专题