1、Query

(1)分区查询

在查询的过程中,采用那个分区来查询是通过系统自动的决定,但是必须是在分区列上基于where子查询。

SELECT page_views.*

FROM page_views
WHERE page_views.date >= '2008-03-01' AND page_views.date <= '2008-03-31' AND
      page_views.referrer_url like '%xyz.com';

(2)、join 从集合的角度上来理解

在mysql中join的查询分为两类:(1)内联结查询 (2)外联结查询;hive当然也是有两种join的查询,并且其join的查询方式跟mysql相当的类似。下面通过案例详细介绍

首先创建两个表,并插入几天记录来作为测试:

create table jn1 (name String);

insert into table jn1 values("java1","java2","blue");

create table jn2 (name String);

insert into table jn2 values("mysql1"),("mysql2"),("blue");

  1)内联结查询 (可以理解为求两个表的交集)

select jn1.*,jn2.* from jn1 JOIN jn2 ON(jn1.name=jn2.name)

所得结果是:

  2)外联结查询

外联结查询与可以分为三种查询方式:1)左外连接, 2)右外连接,3) 全外联结查询

同样采用上面的两个表来进行测试。

  i)左外连接查询 (可以理解成表a以及表a和表b的交集的集合)

   select jn1.* ,jn2.* from jn1 LEFT JOIN jn2 ON(jn1.name=jn2.name);

  或者

   select a.* ,b.* from jn1 a LEFT JOIN jn2 b ON(a.name=b.name);

  

  ii)右外连接查询(可以理解成表b以及表a和表b的交集的集合)

   select jn1.* ,jn2.* from jn1 RIGHT JOIN jn2 ON(jn1.name=jn2.name);

  或者

   select a.* ,b.* from jn1 a RIGHT JOIN jn2 b ON(a.name=b.name);

  

  iii)全外联结查询(表a和表b的并集)

  select jn1.* ,jn2.* from jn1 FULL JOIN jn2 ON(jn1.name=jn2.name);

  或者

  select a.* ,b.* from jn1 a FULL JOIN jn2 b ON(a.name=b.name);

  

2、Group by 的查询

为了统计每一个性别不同用户的总数的查询语句可以是:

SELECT pv_users.gender, count (DISTINCT pv_users.userid) FROM pv_users GROUP BY pv_users.gender;

3、聚合计算

(1)单个聚合情况

SELECT pv_users.gender, count (DISTINCT pv_users.userid) FROM pv_users GROUP BY pv_users.gender;

(2)多个聚合可以同时计算,但是必须要有不同的列名

Multiple aggregations can be done at the same time, however, no two aggregations can have different DISTINCT columns .e.g while the following is possible

  SELECT pv_users.gender, count(DISTINCT pv_users.userid), count(*), sum(DISTINCT pv_users.userid)

  FROM pv_users

   GROUP BY pv_users.gender;

如下面的多个聚合就不行:

SELECT pv_users.gender, count(DISTINCT pv_users.userid), count(DISTINCT pv_users.ip) //这两个查询之后列名重复,所以不允许

FROM pv_users
GROUP BY pv_users.gender;

4、Insert

(1)将数据插入到hive中的表中

FROM pv_users
INSERT OVERWRITE TABLE pv_gender_sum
    SELECT pv_users.gender, count_distinct(pv_users.userid)
    GROUP BY pv_users.gender

(2)将数据插入到hdfs中的文件中

  INSERT OVERWRITE DIRECTORY '/user/data/tmp/pv_age_sum'
    SELECT pv_users.age, count_distinct(pv_users.userid)
    GROUP BY pv_users.age;

(3)动态分区插入

我们可以实现分区插入如下实现。

FROM page_view_stg pvs

INSERT OVERWRITE TABLE page_view PARTITION(dt='2008-06-08', country='US')
       SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, nullnull, pvs.ip WHERE pvs.country = 'US'
INSERT OVERWRITE TABLE page_view PARTITION(dt='2008-06-08', country='CA')
       SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, nullnull, pvs.ip WHERE pvs.country = 'CA'
INSERT OVERWRITE TABLE page_view PARTITION(dt='2008-06-08', country='UK')
       SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, nullnull, pvs.ip WHERE pvs.country = 'UK';

以上实现的分区插入,存在一个问题:当增加某个国家时,那么需要在增加一个insert的语句,这样极其的不方便,为此hive提供了一个动态确定分区的方式来实现动态分区插入,只需要一条语句即可:

FROM page_view_stg pvs

INSERT OVERWRITE TABLE page_view PARTITION(dt='2008-06-08', country)
       SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, nullnull, pvs.ip, pvs.country

(4)插入数据到本地文件中

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/pv_gender_sum' SELECT pv_gender_sum.* FROM pv_gender_sum;

5、Union (连接)

它的意思是将两次或者多次的查询结果连接起来(但是它没有去重的功能)

select * from jn1 union all select * from jn2;

结果如下:

hive的Query和Insert,Group by,Aggregations(聚合)操作的更多相关文章

  1. [Hive - LanguageManual] DML: Load, Insert, Update, Delete

    LanguageManual DML Hive Data Manipulation Language Hive Data Manipulation Language Loading files int ...

  2. hive的高级查询(group by、 order by、 join 、 distribute by、sort by、 clusrer by、 union all等)

    查询操作 group by. order by. join . distribute by. sort by. clusrer by. union all 底层的实现 mapreduce 常见的聚合操 ...

  3. REP-20147 Cannot implement column link for this detail SQL query. Converting to group link.

    注:本文为原创,作为学习交流使用,转载请标明作者及出处,作者保留追究法律责任的权力. Lumen Su lzsu1989#gmail.com (#=@) www.cnblogs.com/lzsu198 ...

  4. Hive 基本语法操练(一):表操作

    Hive 和 Mysql 的表操作语句类似,如果熟悉 Mysql,学习Hive 的表操作就非常容易了,下面对 Hive 的表操作进行深入讲解. **(1)先来创建一个表名为student的内部表** ...

  5. elasticsearch聚合操作——本质就是针对搜索后的结果使用桶bucket(允许嵌套)进行group by,统计下分组结果,包括min/max/avg

    分析 Elasticsearch有一个功能叫做聚合(aggregations),它允许你在数据上生成复杂的分析统计.它很像SQL中的GROUP BY但是功能更强大. 举个例子,让我们找到所有职员中最大 ...

  6. mongdb group聚合操作

    1.数据准备 [{"goods_id":1,"cat_id":4,"goods_name":"KD876"," ...

  7. hive常用函数 wordCount--Hive窗口函数1.1.1 聚合开窗函数聚合开窗函数实战

    第三天笔记 第三天笔记 SQL练习Hive 常用函数关系运算数值计算条件函数日期函数重点!!!字符串函数Hive 中的wordCount1.1 Hive窗口函数1.1.1 聚合开窗函数聚合开窗函数实战 ...

  8. Mybatis之执行insert、update和delete操作时自动提交

    单独使用Mybaits,而没有集成Spring的话,执行insert.update和delete操作是不会自动提交的,即执行语句后不会在数据库有对应的数据变化. 解决这样的方法就是打开自动提交开关,在 ...

  9. 关于GROUP BY和聚合函数

    可以这样去理解group by和聚合函数 转自 http://www.cnblogs.com/wiseblog/articles/4475936.html 写在前面的话:用了好久group by,今天 ...

随机推荐

  1. cnblogs 主题 summerGarden redesign

    Intro cnblogs 的 summerGarden 主题是一个宽屏版的,而且设计虽然很Qzone风格,不过我个人喜欢「简单,扁平」的设计风格,所以就修改了一下样式. before after r ...

  2. 初识Python第三天(一)

    一.set集合 set是一个无序且不重复的元素集合 print(dir(set)) #['__and__', '__class__', '__contains__', '__delattr__', ' ...

  3. js typeof

    var message = "some thing"; alert(typeof message); // string alert(typeof 95); // number a ...

  4. Tiny Rss简明安装与配置笔记

    对于某些自己喜欢的却没有RSS订阅功能的网站,可以通过Feed43定制抓取规则来获取所需信息.但由于其服务器在国外,抓取时常失败,且免费账户抓取频率太低,遂仿造他自行实现了一个并挂到服务器上,然后通过 ...

  5. VS2010/2012配置优化记录笔记

    VS2010/2012配置优化记录笔记 在某些情况下VS2010/2012运行真的实在是太卡了,有什么办法可以提高速度吗?下面介绍几个优化策略,感兴趣的朋友可以参考下,希望可以帮助到你   有的时候V ...

  6. Python 基础练习

    今天接触了python,了解了一下 python 的基础语法,于是想着手训练一下,在本习题集中,参考代码为提供的参考答案,前面的代码为自己思考的代码,最后每道题给出练习的时间. Python 基础练习 ...

  7. c++ 指针常量,常量指针

    当const遇到指针 一般来说,const修饰指针可以分为下面的集中情况. 描述 例子 含义 备注 const在*的左边 const int *b=&a; int const *b=& ...

  8. ember.js学习笔记

    启动服务器 ember server 访问localhost:4200 创建新的路由:ember generate route 路由名称,运行此命令会同时创建一个/templates/.XXXhbs模 ...

  9. web缓存

    web缓存HTTP协议的一个核心特性,它能最小化网络流量,并且提升用户所感知的整个系统响应速度. 什么能被缓存? *Logo和商标图像 *普通的不变化的图像(例如,导航图标) *CSS样式表 *普通的 ...

  10. 下载SRA文件

    sratoolkit.2.6.2-centos_linux64/bin/prefetch  下载SRA文件 fastq-dump    --split-3    SRR2923014.sra    转 ...