hive中order by ,sort by ,distribute by, cluster by 的区别(**很详细**)
hive 查询语法
select [all | distinct] select_ condition, select_ condition
from table_name a
[join table_other b on a.id=b.id]
[where wehre_condition]
[group by col_list [having condition]]
[cluster by col_list | [distribute by col_list] [sort by col_list | order by col_list]]
[limit number]
准备数据:
create table if not exists stu_test(id int,name string,sex string,age int)
row format delimited fields terminated by ','
;
insert into stu_test values
(1,'zs','m',18)
,(2,'ls','m',19)
,(3,'ww','m',20)
,(4,'zq','f',18)
,(5,'ll','f',21)
,(6,'hl','f',19)
,(7,'xh','f',20)
,(8,'cl','f',22)
,(9,'fj','m',19)
,(10,'wb','m',23)
,(11,'wf','f',24)
,(12,'jj','m',21)
,(13,'yy','m',20)
,(14,'ld','f',18)
,(15,'ch','f',22)
;
1.order by col_list:
排序 全局排序 默认为升序asc ,因此只有一个reducer,只有一个reduce task的结果,
比如文件名是000000_0,会导致当输入规模较大时,需要较长的计算时间。
如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来限制输出条数,原因是:所有的数据都会在同一个reducer端进行,数据量大的情况下可能不能出结果,那么在这样的严格模式下,必须指定输出的条数。
例如:stu:按照年龄排序
select * from stu_test order by age desc;
结果:
id name sex age
11 wf f 24
10 wb m 23
15 ch f 22
8 cl f 22
5 ll f 21
12 jj m 21
13 yy m 20
7 xh f 20
3 ww m 20
9 fj m 19
6 hl f 19
2 ls m 19
14 ld f 18
1 zs m 18
4 zq f 18
2.sort by col_list :
局部排序,其在数据进入reducer前完成排序。因此,如果用sort by 进行排序,并且设置mapred.reduce.tasks>1,
则sort by 只保证每个reducer的输出有序,不保证全局排序。
在每一个reducetask中,每一个小的输出结果排序,但是当reducetask的个数为1的话和order by 的排序结果一致
注意:sort by 指定的字段仅仅是用于排序的字段,不用于分reducetask输出结果,最终的输出文件中的结果是随机生成的
select * from stu_test sort by age desc;
结果:
id name sex age
11 wf f 24
10 wb m 23
15 ch f 22
8 cl f 22
5 ll f 21
12 jj m 21
13 yy m 20
7 xh f 20
3 ww m 20
9 fj m 19
6 hl f 19
2 ls m 19
14 ld f 18
1 zs m 18
4 zq f 18
正常(set mapreduce.job.reduces=1)结果和sort by 的结果一致
如果设置reduce task 个数为3的话: set mapreduce.job.reduces=3,此时不一致
set mapreduce.job.reduces=3
select * from stu_test sort by age desc;
结果:
id name sex age
10 wb m 23
15 ch f 22
8 cl f 22
5 ll f 21
7 xh f 20
9 fj m 19
6 hl f 19 11 wf f 24
12 jj m 21
3 ww m 20
2 ls m 19
14 ld f 18
4 zq f 18 13 yy m 20
1 zs m 18
随机生成3个文件,然后在每个文件中进行排序。
3.distribute by col_list:
根据指定的字段将数据分到不同的reducer,且分发算法是hash散列
类似于分桶的概念 按照指定的distribute by 字段和 设置的reducetask的个数进行取余分组,但是并没有排序,只是分,没有排序
select * from stu_test distribute by age desc; 错误,不能使用desc,因为它不是排序的意思
set mapreduce.job.reduces=3
select * from stu_test distribute by age;
结果:
id name sex age
000000_0 age%3=0
14 ld f 18
1 zs m 18
4 zq f 18
12 jj m 21
11 wf f 24
5 ll f 21
000000_1 age%3=1
15 ch f 22
9 fj m 19
6 hl f 19
2 ls m 19
8 cl f 22
000000_1 age%3=2
13 yy m 20
7 xh f 20
3 ww m 20
10 wb m 23
set mapreduce.job.reduces=2 select * from stu_test distribute by age;
结果:
000000_0 age%2=0
15 ch f 22
14 ld f 18
13 yy m 20
11 wf f 24
8 cl f 22
7 xh f 20
4 zq f 18
3 ww m 20
1 zs m 18
000000_0 age%2=1
12 jj m 21
6 hl f 19
10 wb m 23
9 fj m 19
5 ll f 21
2 ls m 19
4.cluster by col_list :
除了具有distribute by 的功能外,还会对该字段进行排序
cluster by = distribute by+sort by
cluster by id = distribute by id +sort by id
注意:1)cluster by 和sort by 不可以同时使用
2)当分组字段和排序字段是同一个字段的时候 cluster by id = distribute by id +sort by id
不是同一个字段的时候 请不要使用 cluster by id
select * from stu_test cluster by age;
结果:
id name sex age
000000_0 age%3=0
14 ld f 18
4 zq f 18
1 zs m 18
12 jj m 21
5 ll f 21
11 wf f 24
000000_1 age%3=1
6 hl f 19
2 ls m 19
9 fj m 19
15 ch f 22
8 cl f 22
000000_1 age%3=2
3 ww m 20
13 yy m 20
7 xh f 20
10 wb m 23
hive中order by ,sort by ,distribute by, cluster by 的区别(**很详细**)的更多相关文章
- hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
- [转载]hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
- hive中order by,sort by, distribute by, cluster by的用法
1.order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数 ...
- hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序) 只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set ...
- hive 排序 order by sort by distribute by cluster by
order by: order by是全局排序,受hive.mapred.mode的影响. 使用orderby有一些限制: 1.在严格模式下(hive.mapred.mod ...
- hive中order by、distribute by、sort by和cluster by的区别和联系
hive中order by.distribute by.sort by和cluster by的区别和联系 order by order by 会对数据进行全局排序,和oracle和mysql等数据库中 ...
- Hive中order by,sort by,distribute by,cluster by的区别
一:order by order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间.关于 ...
- Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by以及 Cluster By
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set h ...
- [大数据相关] Hive中的全排序:order by,sort by, distribute by
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序. 现在学了hive,写sql大家都很熟悉,如果一个order by解决 ...
随机推荐
- Java实现蓝桥杯算法提高P0102
算法提高 P0102 时间限制:1.0s 内存限制:256.0MB 提交此题 用户输入三个字符,每个字符取值范围是0-9,A-F.然后程序会把这三个字符转化为相应的十六进制整数,并分别以十六进制,十进 ...
- Java实现二分查找(折半查找)
1 问题描述 首先,了解一下何为折半查找?此处,借用<算法设计与分析基础>第三版上一段文字介绍: 2 解决方案 2.1 递归法 package com.liuzhen.chapter4; ...
- Java实现 洛谷 P1598 垂直柱状图
题目描述 写一个程序从输入文件中去读取四行大写字母(全都是大写的,每行不超过100个字符),然后用柱状图输出每个字符在输入文件中出现的次数.严格地按照输出样例来安排你的输出格式. 输入格式 四行字符, ...
- Java实现第九届蓝桥杯第几个幸运数字
第几个幸运数字 题目描述 到x星球旅行的游客都被发给一个整数,作为游客编号. x星的国王有个怪癖,他只喜欢数字3,5和7. 国王规定,游客的编号如果只含有因子:3,5,7,就可以获得一份奖品. 我们来 ...
- Github 创建SSH密钥克隆仓库详解
1.登录Github主页,点击任意一个repository,点击Clone or download,点击Use SSH 2.点击add a new pulbic key,创建公钥 3.下面图中的Tit ...
- 分布式ID总结
分布式ID 生成的ID使用场景 几乎所有的业务系统,都有生成一个记录标识的需求,例如:message_id, order_id.这个记录标识往往就是数据库中的唯一主键,数据库上会建立聚集索引(clus ...
- Go语言json编码驼峰转下划线、下划线转驼峰
目录 一.需求 二.实现 三.使用 JsonSnakeCase统一转下划线json JsonSnakeCase统一转驼峰json 一.需求 golang默认的结构体json转码出来,都是大写驼峰的,并 ...
- 使用PyQtGraph绘制数据滚动图形(4)
app = pg.QtGui.QApplication([]) win = pg.GraphicsWindow(title="数据滚动") win.resize(600,300) ...
- 如何在Centos7安装rabbitmq的PHP扩展
1.先安装rabbitmq-c, wget https://github.com/alanxz/rabbitmq-c/releases/download/v0.8.0/rabbitmq-c-0.8.0 ...
- 数据库连接池 Druid和C3p0
datasource.properties数据源 #数据源 datasource.peoperties jdbc.driver=com.mysql.jdbc.Driver jdbc.url=jdbc: ...