hive里的group by和distinct

前言

今天才明确知道group by实际上还是有去重读作用的，其实细想一下，按照xx分类，肯定相同的就算是一类了，也就相当于去重来，详细的看一下。

group by

看一下实例1：

hive> select * from test;

OK

zhao	15	20170807

zhao	14	20170809

zhao	15	20170809

zhao	16	20170809

hive> select name from test;

OK

zhao

zhao

zhao

zhao

hive> select name from test group by name;

...

OK

zhao

Time taken: 40.273 seconds, Fetched: 1 row(s)

按照这个去分类，最后结果只有一个，达到了去重的效果；实际上，所谓去重，肯定是两个一样的才可以去重，下面试一下两列的效果：

hive> select name,age from test group by name,age;

...

OK

zhao	14

zhao	15

zhao	16

Time taken: 36.943 seconds, Fetched: 3 row(s)

hive> select name,age from test group by name;

FAILED: SemanticException [Error 10025]: Line 1:12 Expression not in GROUP BY key 'age'

只group by name就会出错，想一下只用name去做那么age不同就没法处理了，也合情合理。

distinct

这个也比较简单，就是去重：

hive> select distinct name from test;

...

OK

zhao

Time taken: 37.047 seconds, Fetched: 1 row(s)

hive> select distinct name,age from test;

OK

zhao	14

zhao	15

zhao	16

Time taken: 39.131 seconds, Fetched: 3 row(s)

hive> select distinct(name),age from test;

OK

zhao	14

zhao	15

zhao	16

Time taken: 37.739 seconds, Fetched: 3 row(s)

区别

如果数据较多，distinct效率会更低一些，一般推荐使用group by。
至于原因，推荐这篇文章

hive里的group by和distinct的更多相关文章

HIVE点滴：group by和distinct语句的执行顺序
同一条语句之中,如果同时有group by和distinct语句,是先group by后distinct,还是先distinct后group by呢? 先说结论:先group by后distinct. ...
Hadoop Hive概念学习系列之hive里的优化和高级功能（十四）
在一些特定的业务场景下,使用hive默认的配置对数据进行分析,虽然默认的配置能够实现业务需求,但是分析效率可能会很低. Hive有针对性地对不同的查询进行了优化.在Hive里可以通过修改配置的方式进行 ...
group by和distinct语句的执行顺序
同一条语句之中,如果同时有group by和distinct语句,是先group by后distinct,还是先distinct后group by呢? 先说结论:先group by后distinct. ...
MYSQL 行转列以及基本的聚合函数count，与group by 以及distinct组合使用
在统计查询中,经常会用到count函数,这里是基础的 MYSQL 行转列以及基本的聚合函数count,与group by 以及distinct组合使用 -- 创建表 CREATE TABLE `tb ...
Hadoop Hive概念学习系列之hive里的分区（九）
为了对表进行合理的管理以及提高查询效率,Hive可以将表组织成“分区”. 分区是表的部分列的集合,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助. 分 ...
HIVE 不支持group by 别名
hive不支持group by 别名,如果需要group by 别名的情况,可以使用别名的值作为group by 的值
（MySQL里的数据）通过Sqoop Import Hive 里和通过Sqoop Export Hive 里的数据到（MySQL）
Sqoop 可以与Hive系统结合,实现数据的导入和导出,用户需要在 sqoop-env.sh 中添加HIVE_HOME的环境变量. 具体,见我的如下博客: hadoop2.6.0(单节点)下Sqoo ...
Hadoop Hive概念学习系列之hive里的索引（十三）
Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键. Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要 ...
Hadoop Hive概念学习系列之hive里的扩展接口（CLI、Beeline、JDBC）（十六）
<Spark最佳实战陈欢>写的这本书,关于此知识点,非常好,在94页. hive里的扩展接口,主要包括CLI(控制命令行接口).Beeline和JDBC等方式访问Hive. CLI和B ...

随机推荐

每日学习与工作计划移至日事清APP
今天今天开始,每日学习与工作计划移至日事清APP. 博客园依然是我写文字的主战场.日事清APP仅限于做计划.
Out of memory error : GC overhead limit exceeded
GC overhead limit exceeded 是指垃圾回收器通过分析当前内存使用趋势,提前抛出异常而不是真正等到内存耗尽再抛出异常.如果真正等到内存耗尽再抛出异常,可能的后果是:我们连保存重要 ...
Oracle pl/sql导入sql文件，插入更新数据，中文乱码问题解决方案
http://szh-java.iteye.com/blog/1869360 问题描述:用a.sql文件执行insert或update,不论是通过pl/sql还是sqlplus环境下执行,@文件名执行 ...
POJ 2296 Map Labeler （2-Sat）
Map Labeler Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 1267 Accepted: 409 Descri ...
c# 4.0 - how to i SMTP with c# 4/.NET 4 to port 465/SSL (...
first, i've discovered through trial and error that c# 4/.NET 4 has some serious limitations which a ...
STS 设置代码注释模板
打开Window->Preferences->Java->Code Style->Code Templates <?xml version="1.0" ...
golang学习笔记 ---命令行参数
os 包以跨平台的方式,提供了一些与操作系统交互的函数和变量.程序的命令行参数可从os包的Args变量获取:os包外部使用os.Args访问该变量. os.Args变量是一个字符串(string)的切 ...
Android插件化与热修复(六)-微信Tinker原理分析
Tinker热修复原理分析热补丁技术是在用户不需要重新安装应用的情况下实现应用更新,可快速解决一些线上问题.热补丁省去了Android应用发布版本的成本,而且用户端的更新也是无感知的. Tinker ...
【转载整理】Hibernater的锁机制
转载原文:http://www.cnblogs.com/otomedaybreak/archive/2012/01/27/2330008.html 概要:数据库事务,事务并发,hibernate悲观锁 ...
nohup和& 区别
&是指在后台运行,但当用户推出(挂起)的时候,命令自动也跟着退出 &的意思是在后台运行, ./a.out & 的时候, 即使你用ctrl C, 那么a.out ...

hive里的group by和distinct

hive里的group by和distinct

前言

group by

distinct

区别

hive里的group by和distinct的更多相关文章

随机推荐

热门专题