hive学习笔记-表操作
Hive数据类型
基本数据类型
tinyint,smallint,int,biging,float,double,decimal,char,varchar,string,binary,boolean,timestamp,date,
引用数据类型
Array:同样数据类型组合的数组,使用array[1]訪问
MAP:Key-value键值对,通过键进行訪问,使用map['key']訪问
STRUCT:结构体类型,用来存储不同数据类型的数据,是用struct.key訪问
类型不区分大写和小写
Hive使用的文件
textfile:文本格式
SequenceFile:序列化文件(存储的是二进制)
RcFile:列是文件存储格式
Hive基本使用表
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment],...)] [PARTITIONED BY(col_name data_type [COMMENT col_comment],...)] [CLUSTERED BY (col_name,col_name2,...) SORTED BY(col_name [ASC|DESC],...)] INTO num_buckets
BUCKETS]
[
[ROW FORMAT row_format][STORED AS file_format] | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES(...)]
]
[LOCATION hdfs_path]
[AS select_statement]
EXTERNAL:是内部还是外部表
PARTITIONER BY :依据指定列进行分区
CLUSTERED BY:依照某一个字段将同样数据聚到同一个reduce中
BUCKETS:分桶,依据哈希值进行分桶
LOCATION:创建表,其文件在在集群的位置
AS:查询值同一时候加入到表中
样例:
CREATE TABLE IF NOT EXISTS employees(
name string,
salary float,
subordinates array<string>,
deductions map<string,float>,
address struct<street:string,city:string,state:string,zip:int>
)row format delimited fields terminated by '\t' collection items terminated by ',' map keys terminated by ':' lines terminated by '\n' stored as textfile location '/data/';
查看表结构:
desc table_name;
具体信息
desc extended table_name;
格式化后的具体信息
desc formatted table_name;
删除表
drop table table_name;
外部表与内部表的差别:
假设内部表,在删除表之后会将表数据从HDFS中删除,而外部表仅仅删除表的元数据信息,并不会删除表中的数据。
查询字段,假设是array类型能够通过下标
select subordinates[1] from employees;
查询假设是map,使用col_name['key']
查询假设是struct。使用col_name.steet
show tables 显示当前数据库中的表
desc [extended | formatted] table_name 显示表的结构
show create table tablename 显示创建表的语句
drop table tablename 删除表
create table test1 like test2 复制表结构,可是表中数据并没有载入过来
create table test4 as select name,addr from test5 依据test5的name和addr创建test4表。而且将test5中name和addr数据内容载入到test4中(select中不能查*)
hive不同文件读取:
stored as testfile
直接查看HDFS
通过hdfs dfs -test查看
stored as sequencefile
通过hdfs dfs -test查看
stored as rcfile
hive -service rcfilecat path
stored as inputformat 'class' outputformat 'class'
四种基本的差别是inputformat 和 outputformat不同
hive中载入jar包(当次会话实用,假设多次须要加到lib文件夹下)
add jar path/..jar
Hive使用SerDe
SerDe是Serializer和Deserializer的缩写即序列化与反序列化
Hive读写数据的顺序
HDFS->inputfileformat-> <key,vlaue> -> deserializer -> row对象
row对象 -> serializer -> <key,value> ->outputFileFormat -> HDFS文件
Hive分区
为了避免查询过程中消耗非常长时间进行查找整个表,能够使用分区。查找特定分区中的内容,从而节省时间。
分区语句
create table tablename(
name string
....
)
partitioned by(col_name type,...) 这个分区字段和上面定义的字段不同。定义分区字段能够有多个用于分区后在对内容进行分区,相当于一级分区二级分区,注意和顺序有关的
事实上分区就是在HDFS下相应表中创建文件夹,这样以后查询的时候直接去相应文件夹下进行查找
加入分区语法:
alter table table_name add [if not exists] partition(col_name=par_con)
注意这样的加入分区方法前提是在创建表的时候已经创建了col_name分区
删除分区
alter table table_name drop [if exists] partition(col_name=par_com)
查看分区
show partitions table_name
数据载入到分区:
LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE table_name [partition(dt=..,hour=..)]
Hive分桶
对于某个表或者某个分区。hive进一步的组织成桶,也就是说桶是更细粒度范围的划分
hive针对某一列进行分桶
hive採用对列进行hash取值。然后使用该值对桶的个数取余的方式决定该条记录放在哪个桶中
与分区一样都是为了提高查询的效率
查找
select [ALL|DISTINCT] col_name frwom table_name [where col_name=..]
hive学习笔记-表操作的更多相关文章
- hive学习笔记——表的基本的操作
1.hive的数据加载方式 1.1.load data 这中方式一般用于初始化的时候 load data [local] inpath '...' [overwrite] into table t1 ...
- hive 学习笔记——表的入门操作和命令
1.受控表(managed table)包括内部表.分区表.桶表: 1.1.分区表 创建分区表: create table banji(id INT,name STRING) partitioned ...
- mysql学习笔记--表操作
一.显示所有表 1. 语法:show tables; 二.创建表 1. 语法:create table [if not exists] 表名( 字段名 数据类型 [null | not null] ...
- hive学习笔记之三:内部表和外部表
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
- hive学习笔记之四:分区表
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
- hive学习笔记之五:分桶
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
- hive学习笔记之六:HiveQL基础
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
- hive学习笔记之七:内置函数
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
- hive学习笔记之十:用户自定义聚合函数(UDAF)
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览 本文是<hive学习笔记>的第十 ...
随机推荐
- ES6特性之模块【Modules】
ES6之前已经出现了js模块加载的方案,最主要的是CommonJS和AMD规范.commonjs主要应用于服务器,实现同步加载,如nodejs.AMD规范应用于浏览器,如requirejs,为异步加载 ...
- Spark学习之RDD编程(2)
Spark学习之RDD编程(2) 1. Spark中的RDD是一个不可变的分布式对象集合. 2. 在Spark中数据的操作不外乎创建RDD.转化已有的RDD以及调用RDD操作进行求值. 3. 创建RD ...
- [转] Android利用Fiddler进行网络数据抓包
主要介绍Android及IPhone手机上如何利用Fiddler进行网络数据抓包,比如我们想抓某个应用(微博.微信.墨迹天气)的网络通信请求就可以利用这个方法. Mac 下请使用 Charles 代替 ...
- JSP学习笔记 - 内置对象 Response
1.response.addHeader("refresh","2"): 制定页面刷新时间 2.response.addHeader("refresh ...
- CAD使用SetxDataString写数据(网页版)
主要用到函数说明: MxDrawEntity::SetxDataString 写一个字符串扩展数据,详细说明如下: 参数 说明 [in] BSTR val 字符串值 szAppName 扩展数据名称 ...
- PHP 加密:Password Hashing API
PHP 5.5 之后引入 Password hashing API 用于创建和校验哈希密码,它属于内核自带,无需进行任何扩展安装和配置.它主要提供了四个函数以供使用: password_hash(): ...
- no bundle URL present in react-native?
Assuming that you are using nvm and multiple versions of node installed, here is the solution: Say t ...
- 洛谷——P3373 【模板】线段树 2&& B 数据结构
P3373 [模板]线段树 2 题目描述 如题,已知一个数列,你需要进行下面三种操作: 1.将某区间每一个数乘上x 2.将某区间每一个数加上x 3.求出某区间每一个数的和 线段树维护区间乘法 1.如何 ...
- POJ2454——Jersey Politics
POJ2454——Jersey Politics 题目大意: 在泽西奶牛和荷斯坦奶牛的最新普查中,威斯康星奶牛在谷仓中获得了三个档位. 泽西奶牛目前控制着国家重新分配委员会. 他们想将国家分为三个相当 ...
- Luogu P3802 小魔女帕琪
P3802 小魔女帕琪 题目背景 从前有一个聪明的小魔女帕琪,兴趣是狩猎吸血鬼. 帕琪能熟练使用七种属性(金.木.水.火.土.日.月)的魔法,除了能使用这么多种属性魔法外,她还能将两种以上属性组合,从 ...