hive查询语句

一. 为什么hive是数据仓库

hive局限于hdfs, 不能进行记录级别的增删改
hive底层的mapreduce启动耗时很长, 无法做到传统数据库的秒查, 只适合离线分析
hive不支持事务, 无法完成OLTP的要求, OLTP选择hbase或cassandera

二. hive安装

每个hive客户端, 都需要有一个元数据服务来存储元信息(表模式,分区信息), 通常用传统数据库的一个表来存储元信息
hive内部默认用derby存储元信息, 由于derby是单进程存储, 使得不允许两个以上的hive cli执行操作

三.HQL数据操作

文本文件导入表中

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

动态分区插入 :

 insert  OVERWRITE  TABLE  employees  PARTITION (country, state)  SELECT  *  FROM  staged_employees  se ;

 CREATE  TABLE  ca_employees  AS  SELECT  name,slary  FROM  employee  WHERE  se.state='CA'

一次查询多次插入

这种from 后跟多个insert into的语句, 可以只扫描表一次. 而多次插入表, 效率最高

FROM from_statement

INSERT INTO TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1

[INSERT INTO TABLE tablename2 [PARTITION ...] select_statement2]

--1. 建立桶表, 分区表

CREATE TABLE TESTA

   (person_name string, person_org_name string, level2_org_name string)

PARTITIONED BY (import_time   string)

CLUSTERED BY (person_name) INTO 8 BUCKETS

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS textfile

--2.  插入分区数据

from (select person_name, person_org_name, level2_org_name from iap_app_log_import_minute where import_time in ('2015-01-16-0000', '2015-01-200000')) applog

insert into table testa partition(import_time = '2015-01')

select applog.person_name,

       applog.person_org_name,

       applog.level2_org_name

四. 查询语句

sort by + distribute by 与 order by + group by

(1) order by: 查询语句全局有序

(2) sort by : 每个reducer内的数据有序, 当reducer的个数为1, sort by的数据据才全局有序 (效率高)

(3) distribute by : mapreduce会把map输入的键计算哈希值, 把相同哈希值的键值对发往一个reducer.

(4) cluster by : 先distribute by 再order by , 达到全局有序

查看partition

show partitions employees;

SHOW PARTITIONS employees PARTITION(country='US');

桶表的抽样查询tablesample

select * from testa tablesample(bucket 3 out of 10 on  person_name)

laterview

ageid contact_page

ontact_page [3, 4, 5]

ont_page [1, 2, 3]
```
SELECT pageid, adid

    FROM pageAds LATERAL VIEW explode(adid_list) adTable AS adid;
```
ageid adid

ontact_page 3

ontact_page 4

ontact_page 5

ont_page 1

ont_page 2

ont_page 3

ageid	contact_page
ontact_page	[3, 4, 5]
ont_page	[1, 2, 3]

ageid	adid
ontact_page	3
ontact_page	4
ontact_page	5
ont_page	1
ont_page	2
ont_page	3

五. 其他形式

视图 : CRETAE VIEW 视图名 AS SLECTSTATEMENT
索引 :

```sql

CREATE INDEX index_name ON TABLE base_table_name (col_name, ...) AS 'index.handler.class.name' [WITH DEFERRED REBUILD]

--当表的数据发生变化, 自动更新分区内的全部索引

[IDXPROPERTIES (property_name=property_value, ...)]

[IN TABLE index_table_name]

[PARTITIONED BY (col_name, ...)]

[

  [ ROW FORMAT ...] STORED AS ...

  | STORED BY ...

]

[LOCATION hdfs_path]

[TBLPROPERTIES (...)]

[COMMENT "index comment"]

```

hive查询语句的更多相关文章

hive查询语句入门（hive DDL）
hive DDL 启动hadoop /apps/hadoop/sbin/start-all.sh 开启MySQL库,用于存放hive的元数据 sudo service mysql start 启动hi ...
Hive通过查询语句向表中插入数据注意事项
最近在学习使用Hive(版本0.13.1)的过程中,发现了一些坑,它们或许是Hive提倡的比关系数据库更加自由的体现(同时引来一些问题),或许是一些bug.总而言之,这些都需要使用Hive的开发人员额 ...
Hive通过查询语句向表中插入数据过程中发现的坑
前言近期在学习使用Hive(版本号0.13.1)的过程中,发现了一些坑,它们也许是Hive提倡的比关系数据库更加自由的体现(同一时候引来一些问题).也许是一些bug.总而言之,这些都须要使用Hive ...
hive操作语句使用详解
#创建表人信息表 person(String name,int age) hive> create table person(name STRING,age INT)ROW FORMAT DE ...
Hive操作语句实例讲解（帮助你了解桶 bucket）
http://blog.sina.com.cn/s/blog_66474b16010182yu.html这篇可以较好地理解什么是外部表external #创建表人信息表 person(String ...
在shell中判断hive查询记录数大小
用途: 根据查询到结果数量来判断,是否需要再执行下个脚本. 1. 查询语句script.q脚本如下: ) as count from test; 2. shell脚本如下: 这里注意hive语句需要 ...
Inceptor查询语句
-- MySQL中的语句都能用,不再一一描述,只记录一些不同详情见Inceptor 6.0文档 3.4.4查询语句这节 -- 查询语句 SELECT开头,可以通过添加多种从句从Inceptor中的表 ...
SQL Server-简单查询语句，疑惑篇（三）
前言对于一些原理性文章园中已有大量的文章尤其是关于索引这一块,我也是花费大量时间去学习,对于了解索引原理对于后续理解查询计划和性能调优有很大的帮助,而我们只是一些内容进行概括和总结,这一节我们开始正 ...
thinkphp中的查询语句
<?php namespace Admin\Controller; use Think\Controller; class MainController extends Controller { ...

随机推荐

jquery节点操作
很久没有jquery写东西了,最近使用jquery的时候发现很多节点的操作都不太熟悉了,于是就进行了一个小小的总结. 创建节点:var dom=$('<div></div>') ...
makefile--统一目标输出目录（六）
原创博文,转载请标明出处--周学伟http://www.cnblogs.com/zxouxuewei/ 上一节我们把规则单独提取出来,方便了Makefile的维护,每个模块只需要给出关于自己的一些变量 ...
MySQL复制的基本概念和实现
MySQL的复制的概念是完成水平扩展的架构 MySQL性能方面的扩展方式有scale on(向上扩展,垂直扩展) scale out(向外扩展,水平扩 ...
cron 配置计划任务的书写格式(quartz 时间配置)
一个cron表达式有至少6个(也可能7个)有空格分隔的时间元素. 按顺序依次为 1.秒(0~59) 2.分钟(0~59) 3.小时(0~23) 4.天(月)(0~31,但是你需要考虑你月的天数) 5 ...
用vi写一个C 程序
root@IdeaPad:~# ls 1.txt 3.txt 5.txt 6.py evilxr test 2.txt 4.txt 5.txt~ e.txt evilxr.txt root@IdeaP ...
C中的基本数据类型和变量
C语言中的数据类型基本数据类型 1) 整型 (int %d) 2) 字符型 (char %c) 3) 浮点型 %d ①. 单精度浮点型(float) ②. 双精度浮点型(double) 2.指 ...
黑马程序员——JAVA基础之简述类的继承、覆写
------- android培训.java培训.期待与您交流! ---------- 继承的概述: 多个类中存在相同属性和行为时,将这些内容抽取到单独一个类中,那么多个类无需再定义这些属性和行为,只 ...
论文笔记之：Learning to Track: Online Multi-Object Tracking by Decision Making
Learning to Track: Online Multi-Object Tracking by Decision Making ICCV 2015 本文主要是研究多目标跟踪,而 online ...
dictEntry **table;
typedef struct dictht { dictEntry **table; PORT_ULONG size; PORT_ULONG sizemask; PORT_ULONG used;} d ...
java 将长度很长的字符串(巨大字符串超过4000字节)插入oracle的clob字段时会报错的解决方案
直接很长的字符串插入到clob字段中会报字符过长的异常,相信大家都会碰到这种情况 String sql = "insert into table(request_id,table_name, ...

hive查询语句

一. 为什么hive是数据仓库

二. hive安装

三.HQL数据操作

四. 查询语句

五. 其他形式

hive查询语句的更多相关文章

随机推荐

热门专题