Hive文件存储格式

hive文件存储格式

1.textfile

textfile为默认格式
存储方式：行存储
磁盘开销大数据解析开销大
压缩的text文件 hive无法进行合并和拆分

2.sequencefile

二进制文件,以<key,value>的形式序列化到文件中
存储方式：行存储可分割压缩一般选择block压缩,

优势是文件和Hadoop api中的mapfile是相互兼容的。

3.rcfile

存储方式：数据按行分块每块按照列存储
压缩快快速列存取
读记录尽量涉及到的block最少
读取需要的列只需要读取每个row group 的头部定义。
读取全量数据的操作性能可能比sequencefile没有明显的优势

4.orc

存储方式：数据按行分块每块按照列存储

压缩快快速列存取

效率比rcfile高,是rcfile的改良版本

5.自定义格式

用户可以通过实现inputformat和 outputformat来自定义输入输出格式。

总结：
textfile 存储空间消耗比较大，并且压缩的text 无法分割和合并查询的效率最低,可以直接存储，加载数据的速度最高
sequencefile 存储空间消耗最大,压缩的文件可以分割和合并查询效率高，需要通过text文件转化来加载
rcfile 存储空间最小，查询的效率最高，需要通过text文件转化来加载，加载的速度最低

个人建议：text,seqfile能不用就尽量不要用最好是选择orc

例子：

use PDATA;
DROP TABLE IF EXISTS EXCH_USER_JOUR;
CREATE TABLE IF NOT EXISTS EXCH_USER_JOUR
(
SERIAL_NO STRING COMMENT '流水序号',
BR_ORG STRING COMMENT '分支机构',
OPER_NO STRING COMMENT '操作员编号',
OPR_BR_ORG STRING COMMENT '操作分支机构',
STATION_ADDR STRING COMMENT '站点地址',
ENTRUST_MODE_CODE STRING COMMENT '委托方式代码',
USER_NO STRING COMMENT '用户编号',
PRSNT_DATE STRING COMMENT '当前日期',
PRSNT_TIME STRING COMMENT '当前时间',
BUSI_FLAG STRING COMMENT '业务标志',
USER_CATE_CODE STRING COMMENT '用户类别',
OBLIGATE_INFO STRING COMMENT '预留信息',
PWD STRING COMMENT '密码',
SRV_PWD STRING COMMENT '服务密码',
ASSIGN_FLAG STRING COMMENT '指定标志',
OLD_PWD STRING COMMENT '旧密码',
OLD_SRV_PWD STRING COMMENT '旧服务密码',
ONLYREAD_FLAG STRING COMMENT '只读标志',
REMARK STRING COMMENT '备注',
POSITIONING STRING COMMENT '定位串',
DATA_TIME STRING COMMENT '数据时间'
)
PARTITIONED BY (BUSI_DATE STRING COMMENT '业务时间')
STORED AS ORC;

Hive文件存储格式的更多相关文章

Hive文件存储格式和hive数据压缩
一.存储格式行存储和列存储二.Hive文件存储格式三.创建语句和压缩一.存储格式行存储和列存储行存储可以理解为一条记录存储一行,通过条件能够查询一整行数据. 列存储,以字段聚集存储,可以理解为 ...
【图解】Hive文件存储格式
摘自:https://blog.csdn.net/xueyao0201/article/details/79103973 引申阅读原理篇: 大数据:Hive - ORC 文件存储格式大数据:Parq ...
Hive文件的存储格式
hive文件存储格式包括以下几类: TEXTFILE SEQUENCEFILE RCFILE 自定义格式其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到h ...
大数据：Hive - ORC 文件存储格式
一.ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache ...
Hive - ORC 文件存储格式【转】
一.ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache ...
Hive性能调优（一）----文件存储格式及压缩方式选择
合理使用文件存储格式建表时,尽量使用 orc.parquet 这些列式存储格式,因为列式存储的表,每一列的数据在物理上是存储在一起的,Hive查询时会只遍历需要列数据,大大减少处理的数据量. 采用合 ...
hive从入门到放弃(六)——常用文件存储格式
hive 存储格式有很多,但常用的一般是 TextFile.ORC.Parquet 格式,在我们单位最多的也是这三种 hive 默认的文件存储格式是 TextFile. 除 TextFile 外的其他 ...
hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据)；HADOOP存储数据压缩方案对比（LZO,gz，ORC）
数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能. 而hive中间结果 ...
Hive-ORC文件存储格式（续）
本文在Hive-ORC文件存储格式的理论基础上,进一步分析一个实际的Hive ORC表中的数据存储形式. 一.表结构库名+表名:fileformat.test_orc 字段类型 category_ ...

随机推荐

dubbo实践
最近公司准备重构内部服务模块,准备使用dubbo,故研究一下. 官方文档:http://alibaba.github.io/dubbo-doc-static/Home-zh.htm 1. 用maven ...
IE浏览器下异步请求的缓存问题
问题: 在做即时通讯时,需要提示用户有几条未读的提醒,这个是(如果有新的提示消息立马在浏览器无刷新提示)即时获取的.但我们的做法是,当用户点击未读信息进入到信息显示页面时重新获取下未读的提醒:但是在I ...
python 使用pymssql连接sql server数据库
python 使用pymssql连接sql server数据库 #coding=utf-8 #!/usr/bin/env python#------------------------------ ...
如何在Linux上使用文件作为内存交换区(Swap Area)
交换区域(Swap Area)有什么作用? 交换分区是操作系统在内存不足(或内存较低)时的一种补充.通俗的说,如果说内存是汽油,内存条就相当于油箱,交换区域则相当于备用油箱. Ubuntu Linux ...
数据库如何生成sql语句
以SQL SERVER 2008为例子. 1.启动客户端管理器,连接到要生成脚本的数据库. 2.在左边的”对象资源管理器“中,右键选择该数据库打开菜单.选择”任务“,”生成脚本“菜单,打开对话框. 3 ...
mysql安装时到最后start service时就不响应了的解决方法
JSFiddle
<script async src="//jsfiddle.net/980355088/k0u1qjm6/embed/"></script>
3ds max 渲染模型
有的模型因为法线方向问题,渲染的时候有的面缺失,只需要强制双面,如下图,就能把所有的面都渲染出来.
jquery Ajax提交表单数据
//表单中控件的name要和实体类字段属性一致 $.ajax({ cache: true, type: "POST", url:ajaxCallUrl, data:$('#your ...
wpf——三维学习1
以下xmal是我从msdn上复制下来的.是用于在wpf中创建3d模型的实例链接https://msdn.microsoft.com/zh-cn/library/ms747437.aspx看它的使用方式 ...

Hive文件存储格式

Hive文件存储格式的更多相关文章

随机推荐

热门专题