HIVE 简单总结
hive
1 table
查看 表
show tables;
查看表结构
desc table_name;
2 database 默认 default
创建database
create database_name;
查看 database
show databases;
使用 database
use database_name;
删除 database
drop database_name;
3 托管表
使用场景,数据的所有处理都由HIVE完成
创建表托管表
create table POI(id STRING,city STRING,name STRING,lon DOUBLE,lat DOUBLE,address STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
载入数据(将本地数据移动到 hdfs:/user/hive/warehourse,注意关键字 LOCAL)
LOAD DATA LOCAL INPATH '/tmp/hive.data' OVERWRITE INTO TABLE poi;
查看数据
select * from poi limit 10;
select count(id) from poi;
删除表
drop table POI
4 外部表
使用场景,如果要用HIVE和其他工具来处理同一个数据集,应该使用外部表
创建外部表 (创建 hdfs:/user/hive/external_talbe)
create external table external_table (dummy STRING) LOCATION '/user/hive/external_talbe' ;
载入数据 (将数据拷贝到 hdfs:/user/hive/external_talbe,)
LOAD DATA LOCAL inpath '/tmp/dummy.txt' into table external_table;
删除表(只会删除元数据,hdfs:/user/hive/external_talbe中数据无变化)
drop table external
5 分区
对表进行划分,分区在创建表时由PARTITIONED BY 子句定义。
创建表
create table logs(ts BIGINT ,line STRING) PARTITIONED BY (dt STRING,country STRING);
载入数据
LOAD DATA LOCAL INPATH '/tmp/partition.data' INTO TABLE logs PARTITION (dt='2010-01-02',country='CN');
查看数据
select * from logs where dt='2010-01-01';
文件存储结构
/user/hive/warehouse/logs
/user/hive/warehouse/logs/dt=2010-01-02
/user/hive/warehouse/logs/dt=2010-01-02/country=CN
/user/hive/warehouse/logs/dt=2010-01-02/country=CN/partition.data
6 分桶
获取更高的查询处理效率,map端连接
取样更高效
创建表
create table bucketed_poi(id STRING,city STRING,name STRING,lon DOUBLE,lat DOUBLE,address STRING) clustered by (id) sorted by(id asc ) into 4 buckets;
导入数据据
insert overwrite table bucketed_poi select * from poi;
取样
hive> select * from bucketed_poi tablesample (bucket 1 out of 4 on id);
hive> select * from bucketed_poi tablesample (bucket 1 out of 4 on rand());//未分桶
文件存储结构
/user/hive/warehouse/bucketed_poi
/user/hive/warehouse/bucketed_poi/000000_0
/user/hive/warehouse/bucketed_poi/000001_0
/user/hive/warehouse/bucketed_poi/000002_0
/user/hive/warehouse/bucketed_poi/000003_0
7 多表插入
FROM SOURCE
INSERT OVERWRITE TABLE TARGET1
SELECT C1,COUNT(C1), GROUPBY C1
INSERT OVERWRITE TABLE TARGET2
SELECT C2,COUNT(C2), GROUPBY C1
INSERT OVERWRITE TABLE TARGET3
SELECT C3,COUNT(C3), GROUPBY C3
8 表修改
重命名表,数据存放目录会改变
ALTER TABLE SOURCE RENAME TO TARGET;
添加列
ALTER TABLE SOURCE ALL COLUMNS (C8 STRING);
9 排序
全排序,解决只有一个reduce
FROM SOURCE
SELECT year,temperature
DISTRIBUTE BY year
SORT BY year ASC,temperature DESC;
10 连接
内连接,HIVE 只支持等值连接、只允许在FROM中出现一个表
SELECT a.* ,b.* FROM a join b on (a.bid = b.aid);
外连接 左外连接,右外连接,全外连接
SELECT a.* ,b.* FROM a LEFT|RIGTH|FULL OUTER JOIN b ON (a.bid = b.aid);
半连接
SELECT * FROM A LEFT SEMI JOIN B ON (A.id = b.id);
类是于 IN
SELECT * FROM A WHERE A.ID IN (SELECT id FROM B);
11 子查询
只支持子查询的出现在SELECT 语句的FROM 子句中
HIVE 简单总结的更多相关文章
- HIVE简单操作
1.hive命令登录HIVE数据库后,执行show databases;命令可以看到hive数据库中有一个默认的default数据库. [root@hadoop hive]# hive Logging ...
- Hive入门笔记---1.Hive简单介绍
1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案.由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性.这是来自官方的解 ...
- hive简单的项目实战
解压user.zip [root@hadoop1 test]# unzip user.zip -d /test/bigdatacase/dataset Archive: user.zip inflat ...
- Hive简单优化;workflow调试
1. 定义job名字 SET mapred.job.name='customer_rfm_analysis_L1'; 这样在job任务列表里可以第一眼找到自己的任务. 2. 少用distinct, 尽 ...
- Hive简单安装
数据库的创建 Hive1版本 在此之前要安装好JDK,HADOOP,下载解压Hive 在root下安装mysql:yum install mysql-server mysql-client //一般M ...
- Hive简单编程实践-词频统计
一.使用MapReduce的方式进行词频统计 (1)在HDFS用户目录下创建input文件夹 hdfs dfs -mkdir input 注意:林子雨老师的博客(http://dblab.xmu.ed ...
- Hive—简单窗口分析函数
hive 窗口分析函数 : jdbc:hive2:> select * from t_access; +----------------+---------------------------- ...
- hive简单学习---1
---------------------------------------------------------------------------------------------------- ...
- hive简单数据分析
简单查询分析 select brand_id from user_log limit 10; -- 查看日志前10数据 好像也没啥,和SQL相同,,limit取前多少条 , as取别名 查询条数统计 ...
随机推荐
- 转:iOS 屏幕适配,autoResizing autoLayout和sizeClass图文详解
1. autoResizing autoresizing是苹果早期的ui布局适配的解决办法,iOS6之前完全可以胜任了,因为苹果手机只有3.5寸的屏幕,在加上手机app很少支持横屏,所以iOS开发者基 ...
- Java的URL来下载网页源码
import java.io.BufferedInputStream; import java.io.BufferedReader; import java.io.IOException; impor ...
- c++中宽字节表示
1.C++语言中_T Visual C++里边定义字符串的时候,用_T来保证兼容性,VC支持ascii和unicode两种字符类型,用_T可以保证从ascii编码类型转换到unicode编码类型的时候 ...
- 查询--游标 limit skip sort
打印出所有的里程: var cursor = db.tblDaily.find(); cursor.forEach(function(x){ print(x.DailyCount + x.DailyU ...
- 如何使用Maven的archetype快速生成一个新项目(解决生成项目目录不完整问题)
Maven的archetype Plugin可能大家都听过,但不一定都能很好地用好它.缺省地如果你使用 mvn archetype:generate 会从maven的Repository里查找所有支 ...
- JDK7 LinkedList源代码分析
transient int size = 0; /** * Pointer to first node. * Invariant: (first == null && last == ...
- transient关键字小结
java中实现序列化有两种实现方式,一种是自动的,只要实现Serilizable接口,另一种是需要手动指定需要序列化的成员变量,实现Externalizable接口. transient的特点: 1. ...
- Ecstore安装篇-1.运行系统环境要求
运行系统环境要求 运行系统环境要求 author :James,jimingsong@vip.qq.com since :2015-03-01 支持的操作系统 支持的WEB服务器 支持的浏览器 支持的 ...
- emmet 教程 emmet快捷键大全
Emmet的前身是大名鼎鼎的Zen coding,如果你从事Web前端开发的话,对该插件一定不会陌生.它使用仿CSS选择器的语法来生成代码,大大提高了HTML/CSS代码编写的速度,比如下面的演示: ...
- Maven编译可执行jar
打包: 第一种情况:独立项目,且无第三方依赖包 这种情况下,我们需要maven的maven-jar-plugin插件来帮我们打包.请在项目pom.xml中的plugin配置处加入如下内 <plu ...