hive：(group by, having;order by)的使用；group by+多个字段，以及wiki说的group by两种使用限制验证

hive> select * from app_data_stats_historical where os='1' group by dt limit 100;

出现结果如下：

2014-01-01

2014-01-06

......

2014-02-07

2014-02-10

2014-02-14

2014-02-17

2014-02-24

（只返回了一列日期。说明* 不起作用。不过这样，可以查看总共哪些日期，有效，存在数据）

加上having命令，having只作用于group by中的字段，非group的字段不行：

select * from app_data_stats_historical where os='1' group by dt having dt>' limit 1002014-02-01' limit 100;

2014-02-03

2014-02-04

2014-02-07

2014-02-10

2014-02-14

2014-02-17

2014-02-24

（可以用日期进行比较。）

 

hive> select * from app_data_stats_historical where os='1' order by dt desc limit 100;

字段是全部返回的。降序。

 group by 多个字段：2周内分联盟（5是多盟）分平台(分平台指的是分ios和android)，分时段的曝光及点击。

select substr(createtime,12,2)hour,logtype,os_id,count(distinct logtype)

from wizad_mdm_raw_hdfs

where ad_id in('19057','19058','812b4ba287f5ee0bc9d43bbf5bbe87fb') and day >= '2014-12-01'and adn=5

group by substr(createtime,12,2), logtype, os_id;

注意，时段hour提取函数substr和substring 是通用的！

 

或者分步做：将group的字段按取值加到where中去（os_id取值1是android，2是iOS）：

select substr(createtime,12,2)hour,logtype,count(*)

from wizad_mdm_raw_hdfs

where ad_id in('19057','19058','812b4ba287f5ee0bc9d43bbf5bbe87fb') and day >= '2014-12-01'and os_id='2' and adn=5

group by substr(createtime,12,2), logtype;

以及：

select substr(createtime,12,2),logtype,count(*)

from wizad_mdm_raw_hdfs

where ad_id in('19057','19058','812b4ba287f5ee0bc9d43bbf5bbe87fb') and day >= '2014-12-01'and os_id='1' and adn=5

group by substr(createtime,12,2), logtype;

 

substr(createtime,12,2)提取小时字段，起hour别名，group by 不支持。

group 里面不能起别名hour，直接用或引用都不行。

（1）Group by定义别名hour，报错，解析错误

selectsubstr(createtime,12,2),logtype,count(*)

from wizad_mdm_raw_hdfs

where day >= '2014-12-01'

group by substr(createtime,12,2) hour,logtype;

 

（2）引用定义的hour别名也不行： Line 4:9 Invalid table alias or column reference 'hour'

select substr(createtime,12,2)hour,logtype,count(*)

from wizad_mdm_raw_hdfs

where day >= '2014-12-01'

group by hour, logtype;

 

 

 

hive wiki上说group by有两种使用情况限制

（1）group by只有一列，则distinct只能作用一列（可以多次作用同一列）

 INSERT OVERWRITE TABLE pv_gender_sum

 SELECT pv_users.gender, count (DISTINCT pv_users.userid)

 FROM pv_users

 GROUP BY pv_users.gender;

 

 像这样 SELECTpv_users.gender, count(DISTINCT pv_users.userid), count(*), sum(DISTINCTpv_users.userid)

 只distinct一列，但出现多次是可以的。

下面的查询错误，不允许DISTINCT多个列

 INSERT OVERWRITE TABLE pv_gender_agg

 SELECT pv_users.gender, count(DISTINCT pv_users.userid), count(DISTINCTpv_users.ip)

 FROM pv_users

 GROUP BY pv_users.gender;

但我测试发现是可以的。有大神可以给我解释么？

 

如

group by统计去重distinct个数

select substr(createtime,12,2)hour,logtype,os_id,count(distinct logtype), count(distinct os_id)

from wizad_mdm_raw_hdfs

where ad_id in('19057','19058','812b4ba287f5ee0bc9d43bbf5bbe87fb') and day >= '2014-12-01'and adn=5

group by substr(createtime,12,2), logtype, os_id;

 

 

或者一些测试脚本都说明了，我们

select logtype, count(distinct os_id),count(distinctip),count(distinct id)

from wizad_mdm_raw_hdfs

where ad_id in('19057','19058','812b4ba287f5ee0bc9d43bbf5bbe87fb') and day >= '2014-12-01'

group by logtype;

结果：

1      2       8493314 77579300

2      2       267685  211119

 

select substr(createtime,12,2) hour, count(distinctid),count(distinct ip)

from wizad_mdm_raw_hdfs

where ad_id in('19057','19058','812b4ba287f5ee0bc9d43bbf5bbe87fb') and day >= '2014-12-01'and adn=5

group by substr(createtime,12,2);

                                                     

部分结果如下：

00     1598136 154053

04     989745  51201

……

18     1711493 201436

21     3644241 374243

 

 

（2）另一个wiki限制说明：group by后，除了作用列和聚合函数统计项，多余列不能存在。

这个我验证过确实是不行的。

SELECT a,sum(b)

FROM t1

GROUP BY a;

是正确的

 

下面是错误的。

SELECT a,b

FROM t1

GROUP BY a;

因为有多余列b，其不在group by的字段属性，(且不是聚合函数).

查询结果会是这样

a   b

------

100 1

100 2

100 3

gourp by a后，b不能成为集合{1,2,3}返回，你可以count，但不能直接返回b。b是多值的。hive摒弃了这种猜测无效的SQL（HQL，要准确）：有一列在select子句中，却不包含在GROUPBY子句中。

pig是可以构成集合返回的。

hive：(group by, having;order by)的使用；group by+多个字段，以及wiki说的group by两种使用限制验证的更多相关文章

SQL的GROUP BY 与 Order By
1.概述 “Group By”从字面意义上理解就是根据“By”指定的规则对数据进行分组,所谓的分组就是将一个“数据集”划分成若干个“小区域”,然后针对若干个“小区域”进行数据处理. 2.原始表 3.简 ...
hive的高级查询（group by、 order by、 join 、 distribute by、sort by、 clusrer by、 union all等）
查询操作 group by. order by. join . distribute by. sort by. clusrer by. union all 底层的实现 mapreduce 常见的聚合操 ...
hive的strict模式;where,group by,having,order by同时使用的执行顺序
主要限制三种情况 (1) 有partition的表查询需要加上where子句,筛选部分数据实现分区裁剪,即不允许全表全分区扫描,防止数据过大 (2) order by 执行时只产生一个reduce,必 ...
深度分析mysql GROUP BY 与 ORDER BY
鉴于项目的需要,就从网上找到该文章,文章分析得很详细也很易懂,在android里,(不知道是不是现在水平的限制,总之我还没找到在用ContentProvider时可以使用子查询),主要方法是用SQLi ...
mysql GROUP BY 与 ORDER BY 查询不是最新记录
转载:http://blog.csdn.net/qvbfndcwy/article/details/7200910 鉴于项目的需要,就从网上找到该文章,文章分析得很详细也很易懂,在android里,( ...
mysql “group by ”与"order by"的研究－－分类中最新的内容
这两天让一个数据查询难了.主要是对group by 理解的不够深入.才出现这样的情况这种需求,我想很多人都遇到过.下面是我模拟我的内容表我现在需要取出每个分类中最新的内容 select * from ...
select的5中子句where，group by, havaing, order by, limit的使用顺序及实例
-- 语法: SELECT select_list FROM table_name [ WHERE search_condition ] [ GROUP BY group_by_expression ...
GROUP BY和ORDER BY共用
SELECT BatchNumber,MAX(Id) FROM dbo.SceneryOrder AND BatchNumber<>'' GROUP BY BatchNumber DESC
查询语句中select from where group by having order by的执行顺序
查询语句中select from where group by having order by的执行顺序 1.查询中用到的关键词主要包含六个,并且他们的顺序依次为 select--from--w ...

随机推荐

Linux Mint 17一周使用体验
1 Win7下安装Mint双系统 Linux Mint支持直接从Win7硬盘引导安装,非常方便,不用制作U盘引导,更不用刻盘安装了.Mint有Cinnamon和Mate两种桌面,听说Mate更加简洁节 ...
android Spinner控件详解
Spinner提供了从一个数据集合中快速选择一项值的办法.默认情况下Spinner显示的是当前选择的值,点击Spinner会弹出一个包含所有可选值的dropdown菜单,从该菜单中可以为Spinner ...
【C++】处理CSDN博文源码
为了简化CSDN写博客的字体问题,给出一段代码,用于处理使用默认格式写完博客后,处理一次来解决字体问题. 代码片段代码片段如下所示: #include <iostream> #inclu ...
activiti 多实例任务
1.1.1. 前言个人,那么当5个人都投票的时候大概分为如下几种: 1.部门所有人都去投票,当所有人都投票完成的时候,这个节点结束,流程运转到下一个节点.(所有的人都需要投票) 2.部门所有人都去投 ...
Findbug在项目中的运用--提高代码质量
FindBugs是一个静态分析工具,它检查类或者 JAR文件,将字节码与一组缺陷模式进行对比以发现可能的问题.有了静态分析工具,就可以在不实际运行程序的情况对软件进行分析第一手动安装在Ec ...
Java的LinkedList详解，看源码之后的总结
1. LinkedList实现了一个带表头的双向循环链表: 2. LinkedList是线程不同步的: 3. LinkedList中实现了push.pop.peek.empty等方法,因此Linked ...
Linux Debugging （九）一次生产环境下的“内存泄露”
一个偶然的机会,发现一个进程使用了超过14G的内存.这个进程是一个RPC server,只是作为中转,绝对不应该使用这么多内存的.即使并发量太多,存在内存中的数据太多,那么在并发减少的情况下,这个内存 ...
最详细的制作正式版10.11 OS X El Capitan 安装U盘的方法
原帖地址:http://bbs.feng.com/read-htm-tid-10036487.html 一.准备工作: 1.准备一个 8GB 或以上容量的 U 盘,确保里面的数据已经妥善备份好(该过程 ...
THE SCHOOLS WHERE APPLE, GOOGLE, AND FACEBOOK GET THEIR RECRUITS
Android开发学习之路--Broadcast Receiver之初体验
学习了Activity组件后,这里再学习下另一个组件Broadcast Receiver组件.这里学习下自定义的Broadcast Receiver.通过按键自己发送广播,然后自己接收广播.新建MyB ...

hive：(group by, having;order by)的使用；group by+多个字段，以及wiki说的group by两种使用限制验证

hive：(group by, having;order by)的使用；group by+多个字段，以及wiki说的group by两种使用限制验证的更多相关文章

随机推荐

热门专题