hive里的group by和distinct

前言

今天才明确知道group by实际上还是有去重读作用的，其实细想一下，按照xx分类，肯定相同的就算是一类了，也就相当于去重来，详细的看一下。

group by

看一下实例1：

hive> select * from test;

OK

zhao	15	20170807

zhao	14	20170809

zhao	15	20170809

zhao	16	20170809

hive> select name from test;

OK

zhao

zhao

zhao

zhao

hive> select name from test group by name;

...

OK

zhao

Time taken: 40.273 seconds, Fetched: 1 row(s)

按照这个去分类，最后结果只有一个，达到了去重的效果；实际上，所谓去重，肯定是两个一样的才可以去重，下面试一下两列的效果：

hive> select name,age from test group by name,age;

...

OK

zhao	14

zhao	15

zhao	16

Time taken: 36.943 seconds, Fetched: 3 row(s)

hive> select name,age from test group by name;

FAILED: SemanticException [Error 10025]: Line 1:12 Expression not in GROUP BY key 'age'

只group by name就会出错，想一下只用name去做那么age不同就没法处理了，也合情合理。

distinct

这个也比较简单，就是去重：

hive> select distinct name from test;

...

OK

zhao

Time taken: 37.047 seconds, Fetched: 1 row(s)

hive> select distinct name,age from test;

OK

zhao	14

zhao	15

zhao	16

Time taken: 39.131 seconds, Fetched: 3 row(s)

hive> select distinct(name),age from test;

OK

zhao	14

zhao	15

zhao	16

Time taken: 37.739 seconds, Fetched: 3 row(s)

区别

如果数据较多，distinct效率会更低一些，一般推荐使用group by。
至于原因，推荐这篇文章

hive里的group by和distinct的更多相关文章

HIVE点滴：group by和distinct语句的执行顺序
同一条语句之中,如果同时有group by和distinct语句,是先group by后distinct,还是先distinct后group by呢? 先说结论:先group by后distinct. ...
Hadoop Hive概念学习系列之hive里的优化和高级功能（十四）
在一些特定的业务场景下,使用hive默认的配置对数据进行分析,虽然默认的配置能够实现业务需求,但是分析效率可能会很低. Hive有针对性地对不同的查询进行了优化.在Hive里可以通过修改配置的方式进行 ...
group by和distinct语句的执行顺序
同一条语句之中,如果同时有group by和distinct语句,是先group by后distinct,还是先distinct后group by呢? 先说结论:先group by后distinct. ...
MYSQL 行转列以及基本的聚合函数count，与group by 以及distinct组合使用
在统计查询中,经常会用到count函数,这里是基础的 MYSQL 行转列以及基本的聚合函数count,与group by 以及distinct组合使用 -- 创建表 CREATE TABLE `tb ...
Hadoop Hive概念学习系列之hive里的分区（九）
为了对表进行合理的管理以及提高查询效率,Hive可以将表组织成“分区”. 分区是表的部分列的集合,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助. 分 ...
HIVE 不支持group by 别名
hive不支持group by 别名,如果需要group by 别名的情况,可以使用别名的值作为group by 的值
（MySQL里的数据）通过Sqoop Import Hive 里和通过Sqoop Export Hive 里的数据到（MySQL）
Sqoop 可以与Hive系统结合,实现数据的导入和导出,用户需要在 sqoop-env.sh 中添加HIVE_HOME的环境变量. 具体,见我的如下博客: hadoop2.6.0(单节点)下Sqoo ...
Hadoop Hive概念学习系列之hive里的索引（十三）
Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键. Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要 ...
Hadoop Hive概念学习系列之hive里的扩展接口（CLI、Beeline、JDBC）（十六）
<Spark最佳实战陈欢>写的这本书,关于此知识点,非常好,在94页. hive里的扩展接口,主要包括CLI(控制命令行接口).Beeline和JDBC等方式访问Hive. CLI和B ...

随机推荐

ubuntu_thunder
Thunder 出自Ubuntu中文 File:Http://forum.ubuntu.org.cn/download/file.php?id=123020&mode=view/wine-th ...
iOS实现基于VLC播放器的封装效果
前言: 在一些特定场景下,我们获取到的音视频,由于格式比较特殊,用avplayer等播放器是无法播放的,此时,我们可以借助强大的VLC播放器来处理. 原理这里不再赘述,下面我们讲一下如何添加VLC播放 ...
Debug 路漫漫-05
Debug 路漫漫-05: 1.使用这种方式计算 AUC 指标,结果出来居然是 NAN, —— 分母为(M*N),M或者N必有一个为0 了.(nan出现的情况绝大部分是分母出现0了) 若分子为0的 ...
saltstack 基础入门文档
saltstack 和 Puppet Chef 一样可以让你同时在多台服务器上执行命令也包括安装和配置软件.Salt 有两个主要的功能:配置管理和远程执行.这里讲述了saltstack的基本使用方法. ...
webpack window 安装loader
1.安装loadernpm install css-loader style-loader --save-dev 2.配置loader,在webpack.config.js中 module: { lo ...
magento 为用户注册增加一个字段(转)
步骤 I. 加一个occupation/title字段到用户注册页,差不多在register.html的54行,在email下方加一个Occupation显示代码代码: <li>< ...
@weakify, @strongify
我们知道,在使用 block 的时候,为了避免产生循环引用,通常需要使用 weakSelf 与 strongSelf,写下面这样的代码 __weak typeof(self) weakSelf = s ...
Oracle->mysql碰到的问题
1.大小写敏感的区别(如果服务器OS是linux). 在oracle中一般情况下不区分大小写.有时候我们在使用oracle不注意大小写的问题,表名和字段名不加双引号是不区分大小写的,像这样:in ...
easyui刷新指定tab页里面的数据
主页Home/Index中使用tab管理,在主页中设置一个刷新的方法. /** * 刷新指定的tab里面的数据 * @param title 选项卡标题 * @param refreshTabFunc ...
mysqldump脚本crontab执行失败，但是手动执行成功
检查备份时发现,cron中定时备份mysql的脚本备份失败,但是手动自行mysql备份脚本却能正常成功检查cron的环境变量: # cat /etc/crontab ... SHELL=/bin/s ...

hive里的group by和distinct

hive里的group by和distinct

前言

group by

distinct

区别

hive里的group by和distinct的更多相关文章

随机推荐

热门专题