HIVE 简单总结

hive

1 table

查看表
show tables;
查看表结构
desc table_name;

2 database 默认 default

创建database
create database_name;
查看 database
show databases;
使用 database
use database_name;
删除 database
drop database_name;

3 托管表

使用场景，数据的所有处理都由HIVE完成

创建表托管表
create table POI(id STRING,city STRING,name STRING,lon DOUBLE,lat DOUBLE,address STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
载入数据（将本地数据移动到 hdfs:/user/hive/warehourse，注意关键字 LOCAL）
LOAD DATA LOCAL INPATH '/tmp/hive.data' OVERWRITE INTO TABLE poi;
查看数据
select * from poi limit 10;
select count(id) from poi;
删除表
drop table POI

4 外部表
使用场景，如果要用HIVE和其他工具来处理同一个数据集，应该使用外部表

创建外部表 (创建 hdfs:/user/hive/external_talbe)
create external table external_table (dummy STRING) LOCATION '/user/hive/external_talbe' ;
载入数据 (将数据拷贝到 hdfs:/user/hive/external_talbe，)
LOAD DATA LOCAL inpath '/tmp/dummy.txt' into table external_table;
删除表（只会删除元数据，hdfs:/user/hive/external_talbe中数据无变化）
drop table external

5 分区
对表进行划分，分区在创建表时由PARTITIONED BY 子句定义。

创建表
create table logs(ts BIGINT ,line STRING) PARTITIONED BY (dt STRING,country STRING);
载入数据
LOAD DATA LOCAL INPATH '/tmp/partition.data' INTO TABLE logs PARTITION (dt='2010-01-02',country='CN');
查看数据
select * from logs where dt='2010-01-01';

文件存储结构
/user/hive/warehouse/logs
/user/hive/warehouse/logs/dt=2010-01-02
/user/hive/warehouse/logs/dt=2010-01-02/country=CN
/user/hive/warehouse/logs/dt=2010-01-02/country=CN/partition.data

6 分桶
获取更高的查询处理效率，map端连接
取样更高效

创建表
create table bucketed_poi(id STRING,city STRING,name STRING,lon DOUBLE,lat DOUBLE,address STRING) clustered by (id) sorted by(id asc ) into 4 buckets;
导入数据据
insert overwrite table bucketed_poi select * from poi;
取样
hive> select * from bucketed_poi tablesample (bucket 1 out of 4 on id);
hive> select * from bucketed_poi tablesample (bucket 1 out of 4 on rand());//未分桶

文件存储结构

/user/hive/warehouse/bucketed_poi
/user/hive/warehouse/bucketed_poi/000000_0
/user/hive/warehouse/bucketed_poi/000001_0
/user/hive/warehouse/bucketed_poi/000002_0
/user/hive/warehouse/bucketed_poi/000003_0

7 多表插入

FROM SOURCE
INSERT OVERWRITE TABLE TARGET1
SELECT C1，COUNT(C1), GROUPBY C1
INSERT OVERWRITE TABLE TARGET2
SELECT C2，COUNT(C2), GROUPBY C1
INSERT OVERWRITE TABLE TARGET3
SELECT C3，COUNT(C3), GROUPBY C3

8 表修改
重命名表，数据存放目录会改变
ALTER TABLE SOURCE RENAME TO TARGET；
添加列
ALTER TABLE SOURCE ALL COLUMNS （C8 STRING）；

9 排序

全排序，解决只有一个reduce
FROM SOURCE
SELECT year,temperature
DISTRIBUTE BY year
SORT BY year ASC，temperature DESC；

10 连接

内连接，HIVE 只支持等值连接、只允许在FROM中出现一个表
SELECT a.* ,b.* FROM a join b on (a.bid = b.aid);
外连接左外连接，右外连接，全外连接
SELECT a.* ,b.* FROM a LEFT|RIGTH|FULL OUTER JOIN b ON (a.bid = b.aid);
半连接
SELECT * FROM A LEFT SEMI JOIN B ON （A.id = b.id）;
类是于 IN
SELECT * FROM A WHERE A.ID IN (SELECT id FROM B);

11 子查询
只支持子查询的出现在SELECT 语句的FROM 子句中

HIVE 简单总结的更多相关文章

HIVE简单操作
1.hive命令登录HIVE数据库后,执行show databases;命令可以看到hive数据库中有一个默认的default数据库. [root@hadoop hive]# hive Logging ...
Hive入门笔记---1.Hive简单介绍
1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案.由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性.这是来自官方的解 ...
hive简单的项目实战
解压user.zip [root@hadoop1 test]# unzip user.zip -d /test/bigdatacase/dataset Archive: user.zip inflat ...
Hive简单优化；workflow调试
1. 定义job名字 SET mapred.job.name='customer_rfm_analysis_L1'; 这样在job任务列表里可以第一眼找到自己的任务. 2. 少用distinct, 尽 ...
Hive简单安装
数据库的创建 Hive1版本在此之前要安装好JDK,HADOOP,下载解压Hive 在root下安装mysql:yum install mysql-server mysql-client //一般M ...
Hive简单编程实践-词频统计
一.使用MapReduce的方式进行词频统计 (1)在HDFS用户目录下创建input文件夹 hdfs dfs -mkdir input 注意:林子雨老师的博客(http://dblab.xmu.ed ...
Hive—简单窗口分析函数
hive 窗口分析函数 : jdbc:hive2:> select * from t_access; +----------------+---------------------------- ...
hive简单学习---1
---------------------------------------------------------------------------------------------------- ...
hive简单数据分析
简单查询分析 select brand_id from user_log limit 10; -- 查看日志前10数据好像也没啥,和SQL相同,,limit取前多少条 , as取别名查询条数统计 ...

随机推荐

Web 开发后端缓存思路
数据写入缓存: 在数据库与服务端之间利用 redis 这是一个很常见的场景.比如文章的浏览数,每次文章被浏览时,浏览数都 +1.如果每次都回写数据库,不免数据量太大.加上数据库看似简单,其实做了不少关 ...
SQL Server2012中的SequenceNumber
http://www.cnblogs.com/CareySon/archive/2012/03/12/2391581.html https://q.cnblogs.com/q/53552/ https ...
Dojo的UI框架bootstrap for dojo和Dojo-Bootstrap简介
最近在学习Dojo,但样式问题真是头疼呀,虽然清新的淡蓝色很是减缓眼睛的疲劳,但这个扁平化简约风盛行的年代,光是清新的拟物已经满足不了群众的需求了,所以就在这样的需求下,我知道了bootstrap f ...
介绍shell脚本
简单的说shell就是一个包含若干行Shell或者Linux命令的文件.对于一次编写,多次使用的大量命令,就可以使用单独的文件保存下来, 以便日后使用.通常shell脚本以.sh为后缀.在编写shel ...
drupal中使用jquery&ajax
不说了,直接上代码,看注释吧:  <script> (function($){//1.$符号不放在最外边了 ...
PHP mktime函数获取今天的开始和结束时间戳
php 获取今日.昨日.上周.本月的起始时间戳和结束时间戳的方法,主要使用到了 php 的时间函数 mktime(). mktime函数用法如下:mktime(hour,minute,second,m ...
C#使用SqlDataAdapter 实现数据的批量插入和更新
近日由于项目要求在需要实现中型数据的批量插入和更新,晚上无聊,在网上看到看到这样的一个实现方法,特摘抄过来,以便以后可能用到参考. 一.数据的插入 DateTime begin = DateTime. ...
Python 第二课笔记
1.模块初识 Python标准库和第三方库, 写好的功能封装好,起个名字,就是模块也叫库,直接导入就能用了. 标准库就是不需要安装,就能够导入的库第三方库必须下载,安装才能使用的库. 1.1 两个标 ...
（一）html之基本结构
一:HTML基本结构 1.1 HTML文档结构 1.1.1 外层结构 <!DOCTYPE HTML> <html> </html> DOCTYPE元素用于告诉浏览器 ...
NYIST OJ 题目42 一笔画问题
水题.无向图欧拉通路的判定.用并查集判定是不是连通图! #include<cstdio> #include<cstring> #include<cmath> #in ...

HIVE 简单总结

HIVE 简单总结的更多相关文章

随机推荐

热门专题