Hive文件与记录格式
1. Hive文件与记录格式
Create table 有多种用法,例如STORED AS SEQUENCEFILE, ROW FORMAT DELIMITED, SERDE, INPUTFORMAT, OUTPUTFORMAT 这些语法。
某些语法是其他语法的快捷用法,例如:
语法 STORED AS SEQUENCEFILE 的替代方式是:指定INPUTFORMAT 为 org.apache.hadoop.mapred.SequenceFileInputFormat,并指定 OUTPUTFORMAT 为 org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat。
下面创建一些表,然后使用 DESCRIBE TABLE EXTENDED 语句查看下内部实际变化情况。首先创建一个简单表:
> create table text(x int);
hive> describe extended text;
OK
x int
Detailed Table Information
Table(tableName:text, dbName:default, owner:hadoop, createTime:1559016716, lastAccessTime:0, retention:0,
sd:StorageDescriptor(
cols:[FieldSchema(name:x, type:int, comment:null)],
location:hdfs://ip-10-0-2-70.cn-north-1.compute.internal:8020/user/hive/warehouse/text,
inputFormat:org.apache.hadoop.mapred.TextInputFormat,
outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat,
compressed:false,
numBuckets:-1,
serdeInfo:SerDeInfo(
name:null,
serializationLib:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,
parameters:{serialization.format=1}
),
bucketCols:[], sortCols:[], parameters:{},
skewedInfo:SkewedInfo(
skewedColNames:[], skewedColValues:[], skewedColValueLocationMaps:{}
),
storedAsSubDirectories:false),
partitionKeys:[], parameters:{totalSize=0, numRows=0, rawDataSize=0, COLUMN_STATS_ACCURATE={"BASIC_STATS":"true"}, numFiles=0, transient_lastDdlTime=1559016716},
viewOriginalText:null, viewExpandedText:null, tableType:MANAGED_TABLE, rewriteEnabled:false)
Time taken: 0.132 seconds, Fetched: 3 row(s)
然后再使用 STORED AS DEQUENCEFILE 语句创建一张表,用于对比:
> create table seq(x int) stored as sequencefile;
> describe extended seq;
OK
x int
Detailed Table Information
Table(tableName:seq, dbName:default, owner:hadoop, createTime:1559017290, lastAccessTime:0, retention:0,
sd:StorageDescriptor(
cols:[FieldSchema(name:x, type:int, comment:null)],
location:hdfs://ip-10-0-2-70.cn-north-1.compute.internal:8020/user/hive/warehouse/seq,
inputFormat:org.apache.hadoop.mapred.SequenceFileInputFormat,
outputFormat:org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat,
compressed:false, numBuckets:-1,
serdeInfo:SerDeInfo(
name:null, serializationLib:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,
parameters:{serialization.format=1}
),
bucketCols:[], sortCols:[], parameters:{},
skewedInfo:SkewedInfo(
skewedColNames:[], skewedColValues:[], skewedColValueLocationMaps:{}
),
storedAsSubDirectories:false
),
partitionKeys:[], parameters:{totalSize=0, numRows=0, rawDataSize=0, COLUMN_STATS_ACCURATE={"BASIC_STATS":"true"}, numFiles=0, transient_lastDdlTime=1559017290}, viewOriginalText:null, viewExpandedText:null, tableType:MANAGED_TABLE, rewriteEnabled:false)
两者差异很明显:STORED AS SEQUENCEFILE 与默认的InputFormat 和 OutputFormat的值不一样:
inputFormat:org.apache.hadoop.mapred.TextInputFormat,
outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat,
inputFormat:org.apache.hadoop.mapred.SequenceFileInputFormat,
outputFormat:org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat,
在从表中读取数据时,Hive 会使用InputFormat,在向表写入数据时,会使用OutputFormat。InputFormat会从文件中读取key-value对。默认情况下,Hive会直接忽略掉key的内容,而是只有value中的数据。因为key来自于TextInputFormat,是每行的字节偏移量,并不是用户的数据。
2.文件格式
Hive中最简单的数据格式是文本文件格式,可以使用任意分隔符进行分割,同时它也是默认的文件格式,等价于:在创建时通过STORED AS TEXTFILE 语句指定使用文本存储格式
文本文件便于与其他工具共享数据,也便于查看和编辑。不过,相对于二进制文件,文本文件存储的空间要大。我们可以使用压缩,但是如果使用二进制文件存储格式的话,则既可以节约存储空间,也可以提高I/O性能。
2.1 SequenceFile
其中一种存储格式是SequenceFile文件存储格式,在定义表结构时可以通过STORED AS SEQUENCEFILE 语句指定。SequenceFile 是Hadoop生态系统中支持的标准文件格式,可以在块级别和记录级别进行压缩,这对于优化磁盘利用率和I/O来说非常有意义。同时仍然可以支持按照块级别的文件分割,以方便并行处理。Hive 所支持的另一个高效二进制文件是RCFile
2.2 RCFile
大多数Hadoop和Hive都是行式存储的,大多数场景下,这是比较高效的。高效的原因有:
1. 大多数的表具有的字段个数都不大(一般1到20个字段)
2. 对文件按块进行压缩对于需要处理重复数据的情况比较高
3. 很多的处理和调试工具(例如more、head、awk)都可以很好地应用于行式存储数据
但是对于某些特定类型的数据和应用,列式存储会更适用。例如,表中有成百上千个字段,但是大多数查询仅使用其中小部分字段,这时扫描所有的行和过滤掉大部分数据显然是很浪费的。如果数据存储是列式存储,那么仅扫描需要的列数据就可以提高性能。
对于列式存储,进行压缩通常会非常高效,特别是在这列的数据具有较低计数的时候。同时,一些列式存储并不需要物理存储null值的列。
基于这些场景,Hive中设计了RCFile。
Hive 另外一个优点是:可以很容易地在不同的存储格式间转换数据。对一个表执行一个SELECT查询时,或是向表写入执行INSERT操作时,Hive会使用这个表的metadata信息,自动执行转换过程,而不需要额外的程序来对不同存储格式进行转换。
这里我们举一个例子,首先使用ColumarSerDe、RCFileInputFormat和RCFileOutputFormat参数创建表:
> select * from a;
OK
4 5
3 2
> create table columnTable(key int, value int)
> ROW FORMAT SERDE
> 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'
> STORED AS
> INPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileInputFormat'
> OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat';
OK
hive> FROM a INSERT OVERWRITE TABLE columnTable SELECT a.key, a.value;
对于 RCFile 来说,无法使用通常工具打开RCFile,也无法使用通常打开SequenceFile的工具打开。例如:
>cat 000000_0
RCF hive.io.rcfile.column.number2Ч];E3:'c
4352
不过Hive 提供了一个rcfilecat工具,用于展示RCFile文件内容:
> hive --service rcfilecat /user/hive/warehouse/columntable/000000_0
4 5
3 2
3. 记录格式:SerDe
SerDe是Serializer/Deserializer的简称。一个SerDe允许Hive从一个表读入数据,并以任意用户定义的格式写回HDFS。它包含了将一条记录的非结构化数据转化成Hive可以使用的一条记录的过程。
Hive SerDe 库在 org.apache.hadoop.hive.serde2 中(旧版本的SerDe 库在 org.apache.hadoop.hive.serde中,已经被弃用),它本身包含了一些内置的SerDes,如:
1. Avro(Hive 0.9.1 及之后版本)
2. ORC(Hive 0.11 及之后版本)
3. RegEx
4. Thrift
5. Parquet(Hive 0.13及之后版本)
6. CSV(Hive 0.14及之后版本)
7. JsonSerDe(Hive 0.12 及之后版本,在hcatalog-core中)
需要注意的是:在Hive 0.12 之前的发行版中,Amazon提供了一个JSON SerDe,位于s3://elasticmapreduce/samples/hive-ads/libs/jsonserde.jar
也有用户定义的SerDes,不过需要用户实现,或是使用第三方的SerDe。
SerDe的用途与过程有以下三点:
· Hive 使用SerDe(以及FileFormat)读写表中的行
· HDFS文件 --> InputFormat --> <key, value> --> Deserializer --> Row object
· Row object --> Serializer --> <key, value> --> OutputFormat --> HDFS files
这里需要注意的是:这里的key部分在读入后是被忽略掉的(因为key来自于TextInputFormat,是每行的字节偏移量,并不是用户的数据),基本上行对象是存在value中的。
在内部,Hive 引擎使用定义的InputFormat来读取一行条目,然后此记录会被传递给SerDe.Deserializer() 方法进行处理。
以JSON SerDe为例,如果用户想使用Hive 查询JSON格式的数据。若是不使用SerDe,且每行为一个json“文件”的话,则可以在使用TextInputFormat 读入,然后使用一个JSON的SerDe 将JSON文档作为一条记录进行解析。例如:
> create external table messages(
> id int,
> message string
> )
> row format serde "org.apache.hive.hcatalog.data.JsonSerDe"
> location 's3://tang-emr/jsonserde/'
> ;
JSON数据为:
{"id":1,"message":"yep"}
{"id":2,"message":"asdf"}
{"id":3,"message":"cddacddc","fa":"asf"}
hive> select * from messages;
OK
1 yep
2 asdf
3 cddacddc
References:
1. Hive 编程指南
2. https://cwiki.apache.org/confluence/display/Hive/SerDe
Hive文件与记录格式的更多相关文章
- 自定义hive文件和记录格式及文本文件数据编码
(1)一段 建表语句: [ROW FORMAT row_format] [STORED AS file_format] | STORED BY 'storage.handler.class.name' ...
- Hive文件存储格式
hive文件存储格式 1.textfile textfile为默认格式 存储方式:行存储 磁盘开销大 数据解析开销大 压缩的text文件 hive无法进行合并和拆分 2.sequencef ...
- Hive文件存储格式和hive数据压缩
一.存储格式行存储和列存储 二.Hive文件存储格式 三.创建语句和压缩 一.存储格式行存储和列存储 行存储可以理解为一条记录存储一行,通过条件能够查询一整行数据. 列存储,以字段聚集存储,可以理解为 ...
- Hive文件的存储格式
hive文件存储格式包括以下几类: TEXTFILE SEQUENCEFILE RCFILE 自定义格式 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到h ...
- HIVE文件
注册表的本地实体文件, 察看位置,以及映射本地文件到注册表中的位置, HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\hivelist 在这里写 ...
- 【图解】Hive文件存储格式
摘自:https://blog.csdn.net/xueyao0201/article/details/79103973 引申阅读原理篇: 大数据:Hive - ORC 文件存储格式 大数据:Parq ...
- 读取hive文件并将数据导入hbase
package cn.tansun.bd.hbase; import java.io.IOException; import java.net.URI; import java.util.List; ...
- HIVE SQL产生的文件数量及参数调优
产生背景:sqoop抽取oracle数据到hive表时,只能写入到固定分区(--hive-partition-key #hive分区字段 --hive-partition-value #hive分区值 ...
- 启动hive,提示ls: 无法访问/home/software/spark-2.0.1-bin-hadoop2.7/lib/spark-assembly-*.jar: 没有那个文件或目录
原因是:spark升级到spark2以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在,所以hive没有办法找到这个JAR包. 解决办法 ...
随机推荐
- [SCOI2015]情报传递[树剖+主席树]
[SCOI2015]情报传递 题意大概就是 使得在 \(i\) 时刻加入一个情报员帮您传情报 然后询问 \(x,y,c\) 指 \(x\)到\(y\)多少个人有风险-(大于c)的都有风险-每天风险值+ ...
- navicat连接mysql出现2059错误的解决方法
安装navicat之后新建连接出现了2059的错误 网上查询过后,发现这个错误出现的原因是在mysql8之前的版本中加密规则为mysql_native_password,而在mysql8以后的加密规则 ...
- AduSkin - UI
追求极致,永臻完美 A Beautiful WPF Control UI 一款简单漂亮的WPF UI,融合部分开源框架的组件,为个人定制的UI,可供学者参考. Nuget 搜索"AduSki ...
- Dalsa 8K彩色相机Camera link C#采图
一个采图工具,所以界面做的很简单. private SapAcquisition m_Acquisition; private SapBuffer m_Buffers; private SapAcqT ...
- 题解【洛谷P1896】[SCOI2005]互不侵犯
题面 棋盘类状压 DP 经典题. 我们考虑设 \(dp_{i,j,s}\) 表示前 \(i\) 行已经摆了 \(j\) 个国王,且第 \(i\) 行国王摆放的状态为 \(s\) 的合法方案数. 转移的 ...
- MongoDB地理空间(2d)索引创建与查询
LBS(Location Based Services)定位服务,即根据用户位置查询用户附近相关信息,这一功能在很多应用上都有所使用.基于用户位置进行查询时,需要提供用户位置的经纬度.为了提高查询速度 ...
- Day5 多线程 锁
synchronized保证操作原子性 这是因为对变量进行读取和写入时,结果要正确,必须保证是原子操作.原子操作是指不能被中断的一个或一系列操作. 通过加锁和解锁的操作,就能保证3条指令总是在一个线程 ...
- centos7搭建zabbix
参考:https://blog.csdn.net/xiaocong66666/article/details/82818893 安装所需的依赖包即可: yum install gcc gcc-c++ ...
- python之路set
一.set和其他集合的区别: list :允许重复的集合,修改 tuple:允许重复的集合,不修改 dict:字典 set:不允许重复的集合,set不允许重复的,列表是无序的 1.创建一个set s= ...
- opensuse安装pycharm
最近在学习python,所以查询了很多资料,大多都推荐pycharm进行pychon项目开发.于是查阅一些资料,整理出这个安装步骤.(仅供参考!!!仅供参考!!!仅供参考!!!) 仅供参考!!!仅供参 ...