hive中order by ,sort by ,distribute by, cluster by 的区别（**很详细**）

hive 查询语法

select [all | distinct] select_ condition, select_ condition

from table_name a

[join table_other b on a.id=b.id]

[where wehre_condition]

[group by col_list [having condition]]

[cluster by col_list | [distribute by col_list] [sort by col_list | order by col_list]]

[limit number]

准备数据：

create table if not exists stu_test(id int,name string,sex string,age int)

row format delimited fields terminated by ','

;

insert into stu_test values

(1,'zs','m',18)

,(2,'ls','m',19)

,(3,'ww','m',20)

,(4,'zq','f',18)

,(5,'ll','f',21)

,(6,'hl','f',19)

,(7,'xh','f',20)

,(8,'cl','f',22)

,(9,'fj','m',19)

,(10,'wb','m',23)

,(11,'wf','f',24)

,(12,'jj','m',21)

,(13,'yy','m',20)

,(14,'ld','f',18)

,(15,'ch','f',22)

;

1.order by col_list:

排序 全局排序 默认为升序asc ,因此只有一个reducer,只有一个reduce task的结果，
比如文件名是000000_0,会导致当输入规模较大时，需要较长的计算时间。

如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit来限制输出条数，原因是：所有的数据都会在同一个reducer端进行，数据量大的情况下可能不能出结果，那么在这样的严格模式下，必须指定输出的条数。

例如：stu:按照年龄排序

select * from stu_test order by age desc;

结果：

id name sex age

11 wf f 24

10 wb m 23

15 ch f 22

8  cl f 22

5  ll f 21

12 jj m 21

13 yy m 20

7  xh f 20

3  ww m 20

9  fj m 19

6  hl f 19

2  ls m 19

14 ld f 18

1  zs m 18

4  zq f 18

2.sort by col_list :

局部排序，其在数据进入reducer前完成排序。因此，如果用sort by 进行排序，并且设置mapred.reduce.tasks>1,
则sort by 只保证每个reducer的输出有序，不保证全局排序。
在每一个reducetask中，每一个小的输出结果排序，但是当reducetask的个数为1的话和order by 的排序结果一致
注意：sort by 指定的字段仅仅是用于排序的字段，不用于分reducetask输出结果，最终的输出文件中的结果是随机生成的

select * from stu_test sort by age desc;

结果：

id name sex age

11 wf f 24

10 wb m 23

15 ch f 22

8  cl f 22

5  ll f 21

12 jj m 21

13 yy m 20

7  xh f 20

3  ww m 20

9  fj m 19

6  hl f 19

2  ls m 19

14 ld f 18

1  zs m 18

4  zq f 18

正常（set mapreduce.job.reduces=1）结果和sort by 的结果一致
如果设置reduce task 个数为3的话： set mapreduce.job.reduces=3，此时不一致

set mapreduce.job.reduces=3

select * from stu_test sort by age desc;

结果：

id name sex age

10 wb m 23

15 ch f 22

8 cl f 22

5 ll f 21

7 xh f 20

9 fj m 19

6 hl f 19

11 wf f 24

12 jj m 21

3 ww m 20

2 ls m 19

14 ld f 18

4 zq f 18

13 yy m 20

1 zs m 18

随机生成3个文件，然后在每个文件中进行排序。

3.distribute by col_list：

根据指定的字段将数据分到不同的reducer,且分发算法是hash散列
类似于分桶的概念按照指定的distribute by 字段和设置的reducetask的个数进行取余分组，但是并没有排序，只是分，没有排序
select * from stu_test distribute by age desc; 错误，不能使用desc,因为它不是排序的意思

set mapreduce.job.reduces=3

select * from stu_test distribute by age；

结果：

id name sex age

000000_0 age%3=0

14 ld f 18

1  zs m 18

4  zq f 18

12 jj m 21

11 wf f 24

5  ll f 21

000000_1 age%3=1

15 ch f 22

9  fj m 19

6  hl f 19

2  ls m 19

8  cl f 22

000000_1 age%3=2

13 yy m 20

7  xh f 20

3  ww m 20

10 wb m 23

set mapreduce.job.reduces=2

select * from stu_test distribute by age；

结果：

000000_0 age%2=0

15 ch f 22

14 ld f 18

13 yy m 20

11 wf f 24

8 cl f 22

7 xh f 20

4 zq f 18

3 ww m 20

1 zs m 18

000000_0 age%2=1

12 jj m 21

6 hl f 19

10 wb m 23

9 fj m 19

5 ll f 21

2 ls m 19

4.cluster by col_list ：

除了具有distribute by 的功能外，还会对该字段进行排序
cluster by = distribute by+sort by
cluster by id = distribute by id +sort by id
注意：1）cluster by 和sort by 不可以同时使用
2）当分组字段和排序字段是同一个字段的时候 cluster by id = distribute by id +sort by id
不是同一个字段的时候请不要使用 cluster by id

select * from stu_test cluster by age；

结果：

id name sex age

000000_0 age%3=0

14 ld f 18

4  zq f 18

1  zs m 18

12 jj m 21

5  ll f 21

11 wf f 24

000000_1 age%3=1

6  hl f 19

2  ls m 19

9  fj m 19

15 ch f 22

8  cl f 22

000000_1 age%3=2

3  ww m 20

13 yy m 20

7  xh f 20

10 wb m 23

hive中order by ,sort by ,distribute by, cluster by 的区别（很详细）的更多相关文章

hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
[转载]hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
hive中order by,sort by, distribute by, cluster by的用法
1.order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数 ...
hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序) 只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set ...
hive 排序 order by sort by distribute by cluster by
order by: order by是全局排序,受hive.mapred.mode的影响. 使用orderby有一些限制: 1.在严格模式下(hive.mapred.mod ...
hive中order by、distribute by、sort by和cluster by的区别和联系
hive中order by.distribute by.sort by和cluster by的区别和联系 order by order by 会对数据进行全局排序,和oracle和mysql等数据库中 ...
Hive中order by，sort by，distribute by，cluster by的区别
一:order by order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间.关于 ...
Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by以及 Cluster By
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set h ...
[大数据相关] Hive中的全排序：order by,sort by, distribute by
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序. 现在学了hive,写sql大家都很熟悉,如果一个order by解决 ...

随机推荐

C# winform 学习（一）
目标 1.类和对象 2.定义类 3.对象的操作 4.命名空间一.类和对象 1.理解 1)类:具有共同特征和行为的一类事物的统称 2)对象:类的一个具体唯一的实例 eg: 1路公交车;(类) 车牌为F ...
Java实现预排序
1 问题描述在计算机科学中,预排序是一种很古老的思想.实际上,对于排序算法的兴趣很大程度上是因为这样一个事实:如果列表是有序的,许多关于列表的问题更容易求解.显然,对于包含了排序操作,这种算法的时间 ...
java实现第N个素数
素数就是不能再进行等分的整数.比如:7,11.而9不是素数,因为它可以平分为3等份.一般认为最小的素数是2,接着是3,5,... 请问,第100002(十万零二)个素数是多少? 请注意:2 是第一素数 ...
maven配置阿里云仓库进行下载
maven阿里云仓库下载为了解决maven在下载jar包的时候,速度比较慢的问题,可以配置阿里云仓库配置方式的进行下载,首先找到您安装的maven路径. 在conf文件夹下面有个settings.x ...
手把手教你用redis实现一个简单的mq消息队列（java）
众所周知,消息队列是应用系统中重要的组件,主要解决应用解耦,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构.目前使用较多的消息队列有 ActiveMQ,RabbitMQ,Zero ...
Java 中队列同步器 AQS（AbstractQueuedSynchronizer）实现原理
前言在 Java 中通过锁来控制多个线程对共享资源的访问,使用 Java 编程语言开发的朋友都知道,可以通过 synchronized 关键字来实现锁的功能,它可以隐式的获取锁,也就是说我们使用该关 ...
【Spring Boot 】1、Spring Boot 开始
0.写在最前面: 开始了新的征程,Spring Boot作为下一代的t开发框架,日渐流行.它作为spring mvc 的继承者,虽然二者之间没有多大联系,但是Spring Boot 的出现,大大简化 ...
Spring boot添加配置类@Configuration并初始化@Bean，@Resource和@Autowired都为null
大写加黑,找了好久@Resource和@Autowired都依赖不到创建的bean的原因:@Bean的方法名即是创建的Bean名称 import org.activiti.engine.Process ...
解决mysql不是内部或外部命令（win10）
1.原因:cmd当前所在路径为c盘下的system32,由于mysql安装位置不在该目录下,所以会报错. 2.解决方法:配置环境变量 step1:右击此电脑->属性 step2:选择高级系统设置 ...
迷宫城堡+算法讲解【tarjian算法】
Tarjan 算法参考博客:https://www.cnblogs.com/shadowland/p/5872257.html 算法讲解 Tarjan 算法一种由Robert Tarjan提出的求解 ...

hive中order by ,sort by ,distribute by, cluster by 的区别（**很详细**）

hive中order by ,sort by ,distribute by, cluster by 的区别（**很详细**）的更多相关文章

随机推荐

热门专题

hive中order by ,sort by ,distribute by, cluster by 的区别（很详细）

hive中order by ,sort by ,distribute by, cluster by 的区别（很详细）的更多相关文章