Hadoop-Hive学习笔记（2）

1.Hive基本操作

#创建数据库
hive>create database name;
#创建新表
hive> create table students(id int,name string);

#创建一个新表，结构与其他一样

hive> create table new_students like students;


#创建分区表

hive> create table students(id int,name string) partitioned by(region string)；
#删除分区
hive> ALTER TABLE students DROP partition_spec;

#从本地文件加载数据,load是单纯的复制/移动操作，overtite会覆盖已有数据

hive> load data local inpath'path1' OVERWRITE INTO TABLE students;

#加载分区表的数据

hive> load data local inpath'paht1' into table students partition(region="Shanghai");

#展示数据库

hive> show databases;

#展示表的分区

hive> show partitions students;

#展示所有表

hive> show tables;

hive> show tables '.*s';

#显示表的结构

hive> describe students;

#显示所有函数

hive> show functions;

#查看函数用法

hive> describe function name_function;

#更新表名

hive> ALTER TABLE name1 RENAME TO name2;

#添加新的一列，并注释

hive> ALTER TABLE students ADD COLUMNS(columns_new int comment "a comment");
#修改列的名字，类型，位置，注释
hive>

#删除表

hive> DROP TABLE students;

#删除表但保留表的结构定义

hive> dfs -rmr /user/hive/warehouse/students;

#将查询结果存入Hive表
hive> INSERT OVERWRITE TABLE student [PARTITION(partcol1=val1,partcol2=val2...)] select_statement from from_statement;
#将查询结果存入HDFS文件系统
hive> insert overwrite [local] DIRECTORY directory1 select_statement from from_statement;
#将结果插入不同表中,还能写入分区，hdfs和本地目录
FROM src
INSERT OVERWRITE TABLE dest1 SELECT src.* WHERE src.key < 100
INSERT OVERWRITE DIRECTORY '/tmp/dest2.out' SELECT src.key, src.value WHERE src.key >= 100 and src.key < 200
INSERT OVERWRITE TABLE dest3 PARTITION(ds='2008-04-08', hr='12') SELECT src.key WHERE src.key >= 200 and src.key < 300
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/dest4.out' SELECT src.value WHERE src.key >= 300;

#内连接

hive> select sales.*,things.* from sales,things on(sales.id=things.id);

#外连接：

hive> SELECT sales.*, things.* FROM sales LEFT OUTER JOIN things ON (sales.id = things.id);

hive> SELECT sales.*, things.* FROM sales RIGHT OUTER JOIN things ON (sales.id = things.id);

hive> SELECT sales.*, things.* FROM sales FULL OUTER JOIN things ON (sales.id = things.id);


#查看hive为某个查询使用多少个MR作业

hive> Explain select sales.*,things.* from sales,things on(sales.id=things.id);


#创建视图

hive> CREATE VIEW valid_records AS SELECT * FROM records2 WHERE temperature !=9999;

#查看视图详细信息

hive> DESCRIBE EXTENDED valid_records;
#删除视图
hive> drop view name_view;

2. Select操作详解

SELECT [ALL | DISTINCT] select_expr, select_expr, ...

   FROM table_reference

   [WHERE where_condition]

   [GROUP BY col_list [HAVING condition]]

   [ CLUSTER BY col_list

  | [DISTRIBUTE BY col_list]]

   [SORT BY| ORDER BY col_list]

   [limit number]

a.使用ALL和DISTINCT选项区分对重复记录的处理，默认是ALL。

b.Where条件，支持AND，OR，IN ，NOT IN，不支持EXIST 和 NOT EXIST。

c.Order by全局排序，只有一个Reduce任务。Sort by 只在本机做排序。

d.Limit 限制查询记录数

select * from t1 limit 5；

　实现Top K查询

SET mapred.reduce.tasks=1

SELECT * FROM test SORT BY amount DESC LIMIT k;

e.UNION ALL合并多个select的查询结果

select_statement UNION ALL select_statement UNION ALL select_statement ...f.

f. LEFT SEMI JOIN 是 in/exist子查询的更高效的实现。

SELECT a.key,a.value

   FROM a

   WHERE a.key in

     (select b.key from B);

=>>

select a.key,a.value from a LEFT SEMI JOIN b on(a.key=b.key);

Hadoop-Hive学习笔记（2）的更多相关文章

hive学习笔记之一：基本数据类型
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之三：内部表和外部表
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之四：分区表
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之五：分桶
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之六：HiveQL基础
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之七：内置函数
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之九：基础UDF
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之十：用户自定义聚合函数(UDAF)
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览本文是<hive学习笔记>的第十 ...
hive学习笔记之十一：UDTF
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
Hadoop入门学习笔记---part4
紧接着<Hadoop入门学习笔记---part3>中的继续了解如何用java在程序中操作HDFS. 众所周知,对文件的操作无非是创建,查看,下载,删除.下面我们就开始应用java程序进行操 ...

随机推荐

图的存储结构(邻接矩阵与邻接表)及其C++实现
一.图的定义图是由顶点的有穷非空集合和顶点之间边的集合组成,通常表示为: G=(V,E) 其中:G表示一个图,V是图G中顶点的集合,E是图G中顶点之间边的集合. 注: 在线性表中,元素个数可以为零, ...
在Ubuntu16.04.4上安装docker
在Ubuntu16.04.4上安装docker 一.环境准备首先我们需要一台Ubuntu16.04 虚拟机或者真机,其次,我们对其进行环境配置. 1.1.移除已经安装过的dock ...
使用 JDK XML 和 java对象相互转换
Unmarshaller 类能将 XML 数据转换为 Java 内容对象. Marshaller 类能够将 Java 对象转换回 XML 数据. package jaxb; /** * Created ...
Django 创建model的一些注意事项
自增主键字段¶ 默认情况下,Django 会给每个模型添加下面这个字段: id = models.AutoField(primary_key=True) 这是一个自增主键字段. 如果你想指定一个自定义 ...
BZOJ2756:[SCOI2012]奇怪的游戏(最大流,二分)
Description Blinker最近喜欢上一个奇怪的游戏. 这个游戏在一个 N*M 的棋盘上玩,每个格子有一个数.每次 Blinker 会选择两个相邻的格子,并使这两个数都加上 1. 现在 B ...
CF739B Alyona and a tree
嘟嘟嘟前缀和+倍增+树上差分假设\(v\)是\(u\)子树中的一个点,那么\(u\)能控制\(v\)的条件是受\(v\)的权值的限制,而并非\(u\).因此我们就能想到计算每一个点的贡献,即\(v ...
[USACO07DEC]Sightseeing Cows
嘟嘟嘟这题好像属于01分数规划问题,叫什么最优比率生成环. 题目概括一下,就是求一个环,满足∑v[i] / ∑c[i]最大. 我们可以堆上面的式子变个型:令 x = ∑v[i] / ∑c[i],则x ...
视图 b
简单使用Spring Boot+JpaRepository+hibernate搭建项目
sql: -- -------------------------------------------------------- -- 主机: 127.0.0.1 -- 服务器版本: 10.3.9-M ...
ejs模版实现递归树形结构渲染
使用过前端模板的同学们,尤其是使用过nodejs写后台服务的同学们,应该对ejs模板和jade模板都不陌生.对与ejs模板和jade模板孰强孰弱,载各大论坛中一直争论不休,有说ejs更直观的,也有说j ...

Hadoop-Hive学习笔记（2）

Hadoop-Hive学习笔记（2）的更多相关文章

随机推荐

热门专题