Hive如何读写数据？

我们知道，hive表的数据是存储在hdfs文件系统中的。那么Hive是如何将hdfs上的数据文件，映射成一张张表呢，今天就来理清楚这个问题。

官方文档中对于Hive读数据的流程如下：

精炼一下：Hive的执行引擎首先通过InputFormat读取一条一条的数据记录，接着调用Serde.destrialize()来执行记录的反序列化，即将各种格式的数据反序列化为行对象，其中就包括切分和解析字段。

可以简单理解为:Hive使用FileFormat和SerDe读写数据。以读数据为例：InputFormat用于将数据拆成一条一条的记录，SerDe用于从一条记录中拆分字段。

什么是FileFormat？

FileFormat即文件格式，Hive内置文件格式包括textfile、orc、parquet、avro、jsonfile等，在建表语句中的stored as ...中指定。其中，textfile是Hive默认的文件存储格式，可以通过hive.default.fileformat配置。

这几种文件格式，都有各自默认的SerDe、InputFormat和OutputFormat，举个例子：当我们指定Stored as orc的时候，等同于指定了下面三个配置：

需要注意的是，同一种文件格式的每一行数据的行格式也会有所不同，这就涉及到另一个概念：RowFormat。

什么是RowFormat？

RowFormat即行格式。比如同样是textFile文件，其中的行格式可以是RegEx正则类型、Json类型、CSV/TSV等。行格式不同，从一条记录中拆分字段的方式也不同。此时就需要指定不同的SerDe。

什么是SerDe？

SerDe是Serialize/Deserilize的简称，用于序列化和反序列化，SerDe能为表解析、拆分列，且对列指定相应的数据。在建表语句中有两种定义行格式方式：row format delimited或serde ，填写delimited表示使用默认的LazySimpleSerDe类来处理数据，对一行记录按照特定分隔符进行分割；填写SerDe表示使用其他的SerDe，甚至是用户自己自定义的SerDe。如果在建表时没有通过row format语法指定分隔符，则采用默认分隔符：\001。

除了内置的文件格式，Hive还支持用户开发的文件格式，此时，需要显式的指定inputformat 和outputformat，此时若不指定SerDe，会使用默认的SerDe。

Hive中的FileFormat、RowFormat和SerDe总结的更多相关文章

hive中导入json格式的数据（hive分区表）
hive中建立外部分区表,外部数据格式是json的如何导入呢? json格式的数据表不必含有分区字段,只需要在hdfs目录结构中体现出分区就可以了 This is all according to t ...
hive中的NULL(hive空值处理)
HIVE表中默认将NULL存为\N,可查看表的源文件(hadoop fs -cat或者hadoop fs -text),文件中存储大量\N, 这样造成浪费大量空间.而且用java.python直接进入 ...
hdfs数据到hive中，以及hdfs数据隐身理解
hdfs数据到hive中: 假设hdfs中已存在好了数据,路径是hdfs:/localhost:9000/user/user_w/hive_g2park/user_center_enterprise_ ...
Hive中导入Amazon S3中的分区表数据的操作
Hive中创建S3的外部表数据在S3存放的数据是按时间纬度存放的,每天的数据存放在各自的目录下,目录结构如下截图: 每个目录下面的数据是CSV文件,现在将其导入到Hive中进行查询,通过创建对应的表 ...
hive中array嵌套map以及行转列的使用
1. 数据源信息 {"student": {"name":"king","age":11,"sex" ...
hive中创建hive-json格式的表及查询
在hive中对于json的数据格式,可以使用get_json_object或json_tuple先解析然后查询. 也可以直接在hive中创建json格式的表结构,这样就可以直接查询,实战如下(hive ...
MR案例：MR和Hive中使用Lzo压缩
在MapReduce中使用lzo压缩 1).首先将数据文件在本地使用lzop命令压缩.具体配置过详见配置hadoop集群的lzo压缩 //压缩lzop,解压缩lzop -d [root@ncst wo ...
在Hive中使用Avro
作者:过往记忆 | 新浪微博:左手牵右手TEL | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明博客地址:http://www.iteblog.com/文章标题:<在Hiv ...
HIVE中join、semi join、outer join
补充说明 left outer join where is not null与left semi join的联系与区别:两者均可实现exists in操作,不同的是,前者允许右表的字段在select或 ...
Hive中的HiveServer2、Beeline及数据的压缩和存储
1.使用HiveServer2及Beeline HiveServer2的作用:将hive变成一种server服务对外开放,多个客户端可以连接. 启动namenode.datanode.resource ...

随机推荐

【K8S】Docker向私有仓库拉取/推送镜像报错（http: server gave HTTP response to HTTPS client）
这里,我们搭建的Harbor仓库的地址为 http://192.168.175.101:1180. 报错信息如下所示. [root@binghe101 ~]# docker login 192.168 ...
IDEA彩虹括号插件Rainbow Brackets
IDEA搜索插件Rainbow Brackets 安装后重启IDEA 效果如图:不同层级的括号会变成不同的颜色,便于区分. 光标定位到前一个括号后,使用快捷键ALT+鼠标右键可以只查看当前括号中的内容 ...
3 CSS组合选择器
3 组合选择器页面元素比较复杂,存在多个嵌套.为了更加灵活选择页面中的元素,CSS中还提供了组合选择器.组合选择器就是将多个基本选择器通过一定的规则连接起来组成一个复杂选择器. 后代子代选择器 &l ...
2 JavaScript的基础类型
2 JavaScript的基础类型 JS虽然是一个脚本语言. 麻雀虽小, 五脏俱全. 在js中也是可以像其他编程语言一样. 声明变量, 条件判断, 流程控制等等. 我们先看一下JS中的数据类型在js ...
#贪心，树#C 平衡的树
分析处理出子树内剩余删减以及最大的剩余\(a\)和, 如果删了还是超过\(b\)输出无解代码 #include <cstdio> #include <cctype> #de ...
#组合计数，容斥定理#U136346 数星星
题目天上的繁星一闪一闪的,甚是好看.你和你的小伙伴们一起坐在草地上,欣赏这美丽的夜景. 我们假定天上有\(n\)颗星星,它们排成一排,从左往右以此编号为1到\(n\),但是天上的星星实在太多了,你和 ...
Python基础之:Python中的模块
目录简介模块基础执行模块模块搜索路径 dir 包包的相对路径简介 Python的解释环境是很好用,但是如果我们需要编写一个大型的程序的时候,解释环境就完全不够用了.这个时候我们需要将pyt ...
OpenHarmony 分布式硬件关键技术
本文转载自 OpenHarmony TSC 官方微信公众号<峰会回顾第8期 | OpenHarmony 分布式硬件关键技术> 演讲嘉宾 | 李刚回顾整理 | 廖涛排版校对 ...
【FAQ】推送服务常见问题及解答
目录 1.报错6003解决方案. 2.推送成功收不到消息. 3.Gettoken返回0,无法进入onToken函数,无法收到广播. 4.如何在华为开放平台查看消息属性,推送的时候带了importanc ...
Blazor OIDC 单点登录授权实例7 - Blazor hybird app 端授权
目录: OpenID 与 OAuth2 基础知识 Blazor wasm Google 登录 Blazor wasm Gitee 码云登录 Blazor OIDC 单点登录授权实例1-建立和配置IDS ...