hive 表类型

Hive表有受控表(内部表)、外部表、分区表、桶表四种。

内部表，就是一般的表，前面讲到的表都是内布标，当表定义被删除的时候，表中的数据随之一并被删除。

外部表，数据存在与否和表的定义互不约束，仅仅只是表对hdfs上相应文件的一个引用，当删除表定义的时候，表中的数据依然存在。

创建外部表，external是外部表的关键字，也是和内部表有区别的地方

create external table tblName(colName colType...);

加载数据

alter table tblName set location 'hdfs_absolute_uri';

外部表还可以在创建表的时候指定数据的位置，引用当前位置的数据。

create external table tblName(colName colType...) location 'hdfs_absolute_uri';

内部表和外部表的转换：

内——>外

alter table tblName set tblproperties('EXTERNAL'='TRUE');

外——>内

alter table tblName set tblproperties('EXTERNAL'='FALSE');

分区表

如何创建一张分区表？只需要在之前的创建表后面使用partition by加上分区字段就可以了，eg.

　　create table tblName (

　　 id int comment 'ID',

　　 name string comment 'name'

　　) partitioned by (dt date comment 'create time')

　　row format delimited

　　fields terminated by '\t';

如何加载数据？

load data local inpath linux_fs_path into table tblName partition(dt='2015-12-12');

分区的一些操作：

查询分区中的数据：select * from tblName where dt='2015-12-13';(分区相当于where的一个条件)

手动创建一个分区：alter table tblName add partition(dt='2015-12-13');

查看分区表有哪些分区：show partitions tblName;

删除一个分区(数据一起删掉了)：alter table tblName drop partition(dt='2015-12-12');

多个分区如何创建？

和单分区表的创建类似：

　　create table tblName (

　　 id int comment 'ID',

　　 name string comment 'name'

　　) partitioned by (year int comment 'admission year', school string comment 'school name')

　　row format delimited

　　fields terminated by '\t';

同时也可以从hdfs上引用数据：

alter table tblName partition(year='2015', school='crxy') set location hdfs_uri;

注意：

必须得现有分区,必须要使用hdfs绝对路径。

桶表

桶表是对数据进行哈希取值，然后放到不同文件中存储。查看每个桶文件中的内容，可以看出是通过对 buckets 取模确定的。

如何创建桶表？

create table tblName_bucket(id int) clustered by (id) into 3 buckets;

说明：

clustered by ：按照什么分桶

into x buckets:分成x个桶

如何加载数据？

不能使用load data这种方式，需要从别的表来引用

insert into table tblName_bucket select * from tbl_other;

注意:在插入数据之前需要先设置开启桶操作，不然插入数据不会设置为桶!

set hive.enforce.bucketing=true;

桶表的主要作用：

数据抽样

提高某些查询效率

注意：

需要特别注意的是：clustered by 和 sorted by 不会影响数据的导入，这意味着，用户必须自己负责数据如何导入，包括数据的分桶和排序。

'set hive.enforce.bucketing = true'可以自动控制上一轮 reduce 的数量从而适配 bucket 的个数，

当然，用户也可以自主设置 mapred.reduce.tasks 去适配bucket 个数，

推荐使用'set hive.enforce.bucketing = true'。

hive 表类型的更多相关文章

Hive 表类型简述
Hive 表类型简述表类型一.管理表或内部表Table Type: MANAGED_TABLE example: create table Inner(id int,name string, ...
Spark DataFrame vector 类型存储到Hive表
1. 软件版本软件版本 Spark 1.6.0 Hive 1.2.1 2. 场景描述在使用Spark时,有时需要存储DataFrame数据到Hive表中,一般的存储方式如下: // 注册临时表 ...
spark+hcatalog操作hive表及其数据
package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.ud ...
导hive表项目总结（未完待续）
shell里面对日期的操作 #!/bin/bash THIS_FROM=$(date +%Y%m%d -d "-7 day") THIS_TO=$(date +%Y-%m-%d - ...
Spark 读写hive 表
spark 读写hive表主要是通过sparkssSession 读表的时候,很简单,直接像写sql一样sparkSession.sql("select * from xx") 就 ...
sqoop mysql导入hive 数值类型变成null的问题分析
问题描述:mysql通过sqoop导入到hive表中,发现有个别数据类型为int或tinyint的列导入后数据为null.设置各种行分隔符,列分隔符都没有效果. 问题分析:hive中单独将有问题的那几 ...
将DataFrame数据如何写入到Hive表中
1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中? 从spark1.2 到spark1.3 ...
sqoop导入数据到hive表中的相关操作
1.使用sqoop创建表并且指定对应的hive表中的字段的数据类型,同时指定该表的分区字段名称 sqoop create-hive-table --connect "jdbc:oracle: ...
关于hive表同步类型问题
今天华为做实施的时候发现kylin做刷cube的时候发现源表数据类型不适合刷到kylin提供查询接口.问了下同事发现一个比较简单的解决办法. 源表是String类型,做hive视图可以做个hive表提 ...

随机推荐

s5 Docker的持久化存储和数据共享
数据库容器的数据如何才能不会丢失?Docker的持久化存储技术.Docker的数据共享技术能极大提高开发人员的开发效率,边写代码,边看运行结果. 数据持久化之Data Volume Docker持久化 ...
app已损坏，打不开。你应该将它移到废纸篓
首先声明: 有可能并非你安装的软件已损坏,而是Mac系统的安全设置问题,因为这些应用都是破解或者汉化的,那么解决方法就是临时改变Mac系统安全设置. 出现这个问题的解决方法: 修改系统配置:系统偏好设 ...
ubuntu上vsftpd服务配置
Ubuntu上提供两种常用的ftp服务应用:vsftpd 和 tftpd,区别如下: 1)vsftpd 支持客户端上下传文件,支持浏览器显示及下载,支持用户名密码认证,支持匿名访问,默认端口TCP:2 ...
Flask实例化的参数及对app的配置
首先展示一下: from flask import Flask app = Flask(__name__) # type:Flask app.config["DEBUG"] = T ...
十进制转化为二进制Java实现
提取2的幂这个方法用代码实现貌似有点麻烦,需要探测大小,我只实现了整数十进制到二进制的转化 /* * 提取2的幂 */ public static String TenToBin1(int ten) ...
ORACLE 日期加减操作
无论是DATE还是timestamp都可以进行加减操作. 可以对当前日期加年.月.日.时.分.秒,操作不同的时间类型,有三种方法: 1 使用内置函数numtodsinterval增加小时,分钟和秒2 ...
js脚本实现自动上传至github
概述如果要进行多次上传,使用git gui也会不方便,所以我总结了一下用npm的simple-git实现自动上传至github的方法.供以后开发时参考,相信对其他人也有用. 前提条件需要安装nod ...
Rocketmq日志收集与logback集成Demo
官方文档有简洁的例子,这里就做一个简单补充和实践直接上logback-boot.xml文件 <?xml version="1.0" encoding="UTF-8 ...
VRRP&HSRP
HSRP 活跃路由器和备用路由器都会向组播地址 224.0.0.2 UDP 1985 端口发送hello消息. VRRP组中有一台主用路由器(Master),以及一台或多台备用路由器(Backup ...
MySql数据保障
1, 安装文档配置文件,目录,参数,用户,权限,程序,安装方式 2, 数据备份强大的备份策略,

hive 表类型

hive 表类型的更多相关文章

随机推荐

热门专题