hive学习笔记-表操作

Hive数据类型

基本数据类型

tinyint,smallint,int,biging,float,double,decimal,char,varchar,string,binary,boolean,timestamp,date,

引用数据类型

Array：同样数据类型组合的数组,使用array[1]訪问

MAP：Key-value键值对，通过键进行訪问，使用map['key']訪问

STRUCT：结构体类型，用来存储不同数据类型的数据，是用struct.key訪问

类型不区分大写和小写

Hive使用的文件

textfile：文本格式

SequenceFile：序列化文件(存储的是二进制)

RcFile：列是文件存储格式

Hive基本使用表

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment],...)] [PARTITIONED BY(col_name data_type [COMMENT col_comment],...)] [CLUSTERED BY (col_name,col_name2,...) SORTED BY(col_name [ASC|DESC],...)] INTO num_buckets
BUCKETS]

[

[ROW FORMAT row_format][STORED AS file_format] | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES(...)]

]

[LOCATION hdfs_path]

[AS select_statement]

EXTERNAL:是内部还是外部表

PARTITIONER BY :依据指定列进行分区

CLUSTERED BY:依照某一个字段将同样数据聚到同一个reduce中

BUCKETS:分桶，依据哈希值进行分桶

LOCATION：创建表，其文件在在集群的位置

AS：查询值同一时候加入到表中

样例：

CREATE TABLE IF NOT EXISTS employees(

name string,

salary float,

subordinates array<string>,

deductions map<string,float>,

address struct<street:string,city:string,state:string,zip:int>

)row format delimited fields terminated by '\t' collection items terminated by ',' map keys terminated by ':' lines terminated by '\n' stored as textfile location '/data/';

查看表结构：

desc table_name;

具体信息

desc extended table_name;

格式化后的具体信息

desc formatted table_name;

删除表

drop table table_name;

外部表与内部表的差别：

假设内部表，在删除表之后会将表数据从HDFS中删除，而外部表仅仅删除表的元数据信息，并不会删除表中的数据。

查询字段，假设是array类型能够通过下标

select subordinates[1] from employees;

查询假设是map，使用col_name['key']

查询假设是struct。使用col_name.steet

show tables   显示当前数据库中的表

desc [extended | formatted] table_name   显示表的结构

show create table tablename   显示创建表的语句

drop table tablename   删除表

create table test1 like test2   复制表结构，可是表中数据并没有载入过来

create table test4 as select name,addr from test5   依据test5的name和addr创建test4表。而且将test5中name和addr数据内容载入到test4中（select中不能查*）

hive不同文件读取：

stored as testfile

直接查看HDFS

通过hdfs dfs -test查看

stored as sequencefile

通过hdfs dfs -test查看

stored as rcfile

hive -service rcfilecat path

stored as inputformat 'class' outputformat 'class'

四种基本的差别是inputformat 和 outputformat不同

hive中载入jar包（当次会话实用，假设多次须要加到lib文件夹下）

add jar path/..jar

Hive使用SerDe

SerDe是Serializer和Deserializer的缩写即序列化与反序列化

Hive读写数据的顺序

HDFS->inputfileformat-> <key,vlaue> -> deserializer -> row对象

row对象 -> serializer -> <key,value> ->outputFileFormat -> HDFS文件

Hive分区

为了避免查询过程中消耗非常长时间进行查找整个表，能够使用分区。查找特定分区中的内容，从而节省时间。

分区语句

create table tablename(

name string

....

)

partitioned by(col_name type,...) 这个分区字段和上面定义的字段不同。定义分区字段能够有多个用于分区后在对内容进行分区，相当于一级分区二级分区，注意和顺序有关的

事实上分区就是在HDFS下相应表中创建文件夹，这样以后查询的时候直接去相应文件夹下进行查找

加入分区语法：

alter table table_name add [if not exists] partition(col_name=par_con)

注意这样的加入分区方法前提是在创建表的时候已经创建了col_name分区

删除分区

alter table table_name drop [if exists] partition(col_name=par_com)

查看分区

show partitions table_name

数据载入到分区：

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE table_name [partition(dt=..,hour=..)]

Hive分桶

对于某个表或者某个分区。hive进一步的组织成桶，也就是说桶是更细粒度范围的划分

hive针对某一列进行分桶

hive採用对列进行hash取值。然后使用该值对桶的个数取余的方式决定该条记录放在哪个桶中

与分区一样都是为了提高查询的效率

查找

select [ALL|DISTINCT] col_name frwom table_name [where col_name=..]

hive学习笔记-表操作的更多相关文章

hive学习笔记——表的基本的操作
1.hive的数据加载方式 1.1.load data 这中方式一般用于初始化的时候 load data [local] inpath '...' [overwrite] into table t1 ...
hive 学习笔记——表的入门操作和命令
1.受控表(managed table)包括内部表.分区表.桶表: 1.1.分区表创建分区表: create table banji(id INT,name STRING) partitioned ...
mysql学习笔记--表操作
一.显示所有表 1. 语法:show tables; 二.创建表 1. 语法:create table [if not exists] 表名( 字段名数据类型 [null | not null] ...
hive学习笔记之三：内部表和外部表
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之四：分区表
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之五：分桶
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之六：HiveQL基础
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之七：内置函数
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
hive学习笔记之十：用户自定义聚合函数(UDAF)
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览本文是<hive学习笔记>的第十 ...

随机推荐

linux 拆分文件
split [OPTION]... [INPUT [PREFIX]] :根据行或者大小拆分文件 split file_name :默认把文件file_name拆分成xaa,xab,xac,...... ...
pyhon模块
模块基础什么是模块模块式一系列功能的集合体,而函数是某一个功能的集合体,因此模块可以看成是一堆函数的集合体.一个py文件内部可以放一堆函数,因此一个py文件就可以看成是一个模块.如果这个py文件的 ...
es6常用的语法
刚开始用vue或者react,很多时候我们都会把ES6这个大兄弟加入我们的技术栈中.但是ES6那么多那么多特性,我们需要全部都掌握吗?秉着二八原则,掌握好常用的,有用的这个可以让我们快速起飞. 接下来 ...
svn更新报错Please execute the 'Cleanup' command.
更新svn报错要Clearnup一下就可以再更新了点击svn中 clear up ok之后恢复正常
xmpp聊天室(5)
聊天室 //初始化聊天室 XMPPJID *roomJID = [XMPPJID jidWithString:ROOM_JID]; xmppRoom = [[XMPPRoom alloc] initW ...
搜索--P1219 N皇后
题目描述检查一个如下的6 x 6的跳棋棋盘,有六个棋子被放置在棋盘上,使得每行.每列有且只有一个,每条对角线(包括两条主对角线的所有平行线)上至多有一个棋子. 上面的布局可以用序列2 4 6 1 3 ...
十二届 - CSU 1803 ：2016（同余定理）
题目地址:http://acm.csu.edu.cn/csuoj/problemset/problem?pid=1803 Knowledge Point: 同余定理:两个整数a.b,若它们除以整数m所 ...
POJ P2096 Collecting Bugs
思路分类讨论,不妨先设$DP[i][j]$表示已经发现$i$种子系统中有$n$种$bug$无非只有四种情况发现的$bug$在旧的系统旧的分类,概率$p1$是$(i/s)*(j/n)$. 发现的$b ...
Luogu P4316 绿豆蛙的归宿
P4316 绿豆蛙的归宿题意翻译「Poetize3」题目背景随着新版百度空间的上线,Blog宠物绿豆蛙完成了它的使命,去寻找它新的归宿. 题目描述给出一个有向无环图,起点为1终点为N,每条边 ...
CCF201612-2 工资计算 java（100分）
试题编号: 201612-2 试题名称: 工资计算时间限制: 1.0s 内存限制: 256.0MB 问题描述: 问题描述小明的公司每个月给小明发工资,而小明拿到的工资为交完个人所得税之后的工资.假 ...

hive学习笔记-表操作

hive学习笔记-表操作的更多相关文章

随机推荐

热门专题