Hive 表类型简述
Hive 表类型简述
表类型一、管理表或内部表Table Type: MANAGED_TABLE
example:
create table Inner(
id int,
name string,
description string
)
//用来指定原文件的列分隔符
row format delimited fields terminated by '\t';
表类型二、外部表(原始数据表多建于外部表)
example:
create external table extertab(
nobo int,
name string,
job string,
birthday string,
salary float,
bonus float
)
row format delimited fields terminated by '\t'
location'/input/demo';
表类型三、分区表(既可以是内布表,也可以是外部表,看需求而定!)
example:
create table part@NewYork_England(
no int,
name string,
job string,
mgrno int,
birthday string,
salary float,
bonus float
)
<!—当分区只有一个字段时,称为一级分区表;两个字段为二级分区表;还有三级分区表,分区表创建表的时候需要指定分区字段,分区字段与普通字段的区别:分区字段会在HDFS表目录下生成一个分区字段名称的目录,而普通字段则不会,查询的时候可以当成普通字段来使用,一般不直接和业务直接相关。-->
partitioned by (province string)
row format delimitedfields terminated by '\t';
//增加分区
aler table emp_partadd [if not exist] partition(provine='zhejiang',city='hangzhou')
//增加分区并指定分区数据所在目录
Alter table emp_part add partition(province=’Boston’) location ‘/user/hive/warehouse/mydb.db/emp_part/Boston’;
//向分区表加载数据
<!—-本地向分区表中添加数据的方法-->
load data localinpath '/home/user01/emp.txt' into table emp_part partition(province='CHICAGO');
<!—-hdfs节点向分区表中添加数据的方法;这个操作会造成当前节点的数据(剪贴)移动至表中-->
load data inpath'/input/user01/emp.txt' into table emp_part partition (province='CHICAGO');
<!—-直接从本地将数据填充到至表所在的路径中-->
dfs -put '/home/vampire/emp.txt'into table emp_part partition (province='CHICAGO');
[动态分区表]
严格模式:static partitioned by (county string,states string)
非严格模式:partitioned by (county string,states string)
需要设置以下参数:
//是否开启动态分区功能 0.13版本默认开启
set hive.exec.dynamic.partition=true;
//动态分区的模式,默认strict,表示必须指定至少一个分区为静态分区,nonstrict模式表示允许所有的分区字段都可以使用动态分区
set hive.exec.dynamic.partition.mode=nostrict;
create table dypart(
id int,
name string
)
partitioned by (addr string)
row format delimited fields terminated by '\;';
//使用特殊字符作为分隔符时需要转义
//动态分区必须使用mapreduce才能完成,所以不能使用load方式加载
insert into table dypart partition (addr) select deptno,deptname,addr as addr from dept;
-----------------------
--二级动态分区表
create external table dypart2(
empno int,
empname string,
empjob string,
mgrno int,
birthday string,
salary int,
bonus float,
deptno int
)
partitioned by (country string,province string)
row format delimited fields terminated by '\t'
location '/hive/dynamic/dypart2';
--location之后的目录可以不存在,创建表会自动创建,但作为外部表推荐目录和数据已经存在
--开启严格模式
set hive.exec.dynamic.partition.mode=strict;
--严格模式中,要求主分区必须为静态分区,辅助分区可以为动态
insert into table dypart2 partition (country='usa',province) select empno,empname,empjob,mgno,birthday,salary,bonus,depno,depno as province from emp;
--通过子查询方式
insert into table dypart2 partition (country='usa',province) select c.empno,c.empname,c.empjob,c.mgno,c.birthday,c.salary,c.bonus,c.depno,c.deptname as province from (select * from emp a join dept b on a.depno=b.deptno) c;
--覆盖导入方式,此时overwrite和into不能连用
insert overwrite table dypart2 partition (country='china',province) select a.empno,a.empname,a.empjob,a.mgno,a.birthday,a.salary,a.bonus,a.depno,b.deptname as province from emp a join dept b on a.depno=b.deptno;
表类型四:桶表
将内部表,外部表和分区表进一步组织成桶表
可以将表的列通过Hash算法进一步分解成不同的文件存储
create table test_bucket_table(
id int,
name string
)
clustered by (id) into 5 bucket;
表类型五:临时表 TEMPORARY hive-0.14以后支持
操作表的一些常用命令:
//描述表信息
desc formatted emp_part;
//查询全表数据
select * fromemp_part;
//查询分区字段表数据
select * fromemp_part where province='CHICAGO';
//查看分区信息
show partitionsemp_part;
//描述表结构
desc formatted emp;
//删除内部表
drop table dept;
//删除外部表
drop table emp;
//清空表数据
truncate tablestudent;
//删除分区
aler table emp_partdrop partition(provine='zhejiang',city='hangzhou')
Hive 表类型简述的更多相关文章
- hive 表类型
Hive表有受控表(内部表).外部表.分区表.桶表四种. 内部表,就是一般的表,前面讲到的表都是内布标,当表定义被删除的时候,表中的数据随之一并被删除. 外部表,数据存在与否和表的定义互不约束 ...
- Spark DataFrame vector 类型存储到Hive表
1. 软件版本 软件 版本 Spark 1.6.0 Hive 1.2.1 2. 场景描述 在使用Spark时,有时需要存储DataFrame数据到Hive表中,一般的存储方式如下: // 注册临时表 ...
- spark+hcatalog操作hive表及其数据
package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.ud ...
- 哈希表(Hashtable)简述
一,哈希表(Hashtable)简述 在.NET Framework中,Hashtable是System.Collections命名空间提供的一个容器,用于处理和表现类似keyvalue的键值对,其中 ...
- 导hive表项目总结(未完待续)
shell里面对日期的操作 #!/bin/bash THIS_FROM=$(date +%Y%m%d -d "-7 day") THIS_TO=$(date +%Y-%m-%d - ...
- Spark 读写hive 表
spark 读写hive表主要是通过sparkssSession 读表的时候,很简单,直接像写sql一样sparkSession.sql("select * from xx") 就 ...
- sqoop mysql导入hive 数值类型变成null的问题分析
问题描述:mysql通过sqoop导入到hive表中,发现有个别数据类型为int或tinyint的列导入后数据为null.设置各种行分隔符,列分隔符都没有效果. 问题分析:hive中单独将有问题的那几 ...
- 将DataFrame数据如何写入到Hive表中
1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中? 从spark1.2 到spark1.3 ...
- sqoop导入数据到hive表中的相关操作
1.使用sqoop创建表并且指定对应的hive表中的字段的数据类型,同时指定该表的分区字段名称 sqoop create-hive-table --connect "jdbc:oracle: ...
随机推荐
- 05-使用jQuery操作input的value值
表单控件是我们的重中之重,因为一旦牵扯到数据交互,离不开form表单的使用,比如用户的注册登录功能等 那么通过上节知识点我们了解到,我们在使用jquery方法操作表单控件的方法: $(selector ...
- 使用pyenv在系统中安装多个版本的python
pyenv的安装与使用 如果没有安装git,首先要安装git apt-get install git 安装完成后,使用自动安装程序提供的单行程进行安装: curl -L https://github. ...
- 带权单源最短路[稀疏图](Dijkstra)
因为是稀疏图,所以应当选择邻接表来存储 构造一个邻接表 这只是我的构造方法,有很多种更好的构造方法,大家可以自己去构造 typedef int vertex; typedef int WeightTy ...
- [算法专题] Binary Tree
1 Same Tree https://leetcode.com/problems/same-tree/ Given two binary trees, write a function to che ...
- mybatis环境配置与入门例子
1.jar包的导入 mybatis需要jar包:mybatis-3.4.6.jar mysql驱动jar包:mysql-connector-java-5.1.34.-bin.jar 日志记录jar包: ...
- 【UNR #1】火车管理(主席树)
[UNR #1]火车管理(主席树) 好好的代码被 \(extra\ test\) 卡常了...我就放一个目前最快的版本吧... 题意简化: 有 \(n\) 个栈,\(m\) 次操作. 将 \(x\) ...
- phpMyAdmin 4.7.x CSRF 漏洞利用
作者:Ambulong phpMyAdmin是个知名MySQL/MariaDB在线管理工具,phpMyAdmin团队在4.7.7版本中修复了一个危害严重的CSRF漏洞(PMASA-2017-9),攻击 ...
- 教你用python打造WiFiddos
本文来源于i春秋学院,未经允许严禁转载. 0x00 前言因为在百度上很难找到有关于用python打造WiFidos的工具的,而且不希望大家成为一名脚本小子,所以我打算写一篇,需要的工具有scapy,i ...
- 为什么 echo 3 . print(2) . print(4) . 5 . 'c'的结果是45c2131
例子:请写出echo 3 . print(2) . print(4) . 5 . 'c'的输出结果为____? 许多人看到这个题的第一印象是输出结果不就是3245c嘛,然而正确的是答案却是45c213 ...
- struts2框架学习笔记1:搭建测试
Servlet是线程不安全的,Struts1是基于Servlet的框架 而Struts2是基于Filter的框架,解决了线程安全问题 因此Struts1和Struts2基本没有关系,只是创造者取名问题 ...