hive 元数据解析

在使用Hive进行开发时，我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。

要想还原建表DDL就必须从元数据入手，我们知道，hive的元数据并不存放在hdfs上，而是存放在传统的RDBMS中，典型的如MySQL，derby等，这里我们以mysql为元数据库，结合0.4.2版本的hive为例进行研究。

连接上mysql后可以看到hive元数据对应的表约有20个，其中和表结构信息有关的有9张，其余的10多张或为空，或只有简单的几条记录，以下是部分主要表的简要说明。

表名	说明	关联键
TBLS	所有hive表的基本信息	TBL_ID,SD_ID
TABLE_PARAM	表级属性，如是否外部表，表注释等	TBL_ID
COLUMNS	Hive表字段信息(字段注释，字段名，字段类型，字段序号)	SD_ID
SDS	所有hive表、表分区所对应的hdfs数据目录和数据格式	SD_ID,SERDE_ID
SERDE_PARAM	序列化反序列化信息，如行分隔符、列分隔符、NULL的表示字符等	SERDE_ID
PARTITIONS	Hive表分区信息	PART_ID,SD_ID,TBL_ID
PARTITION_KEYS	Hive分区表分区键	TBL_ID
PARTITION_KEY_VALS	Hive表分区名(键值)	PART_ID

除了上面几张表外，还有两张表非常有趣:NUCLEUS_TABLES和SEQUENCE_TABLE

NUCLEUS_TABLES表中保存了元数据表和hive中class类的对应关系，如’org.apache.hadoop.hive.metastore.model.MTable’, ‘`TBLS`’，说明MTable类对应了元数据的TBLS表，不难想象当我们创建一张表时，hive一定会通过MTable的DAO模式向TBLS插入一条数据用来描述刚刚创建的hive表。NUCLEUS_TABLES表内现在共有17条这样的记录。
SEQUENCE_TABLE表保存了hive对象的下一个可用ID，如’org.apache.hadoop.hive.metastore.model.MTable’, 271786，则下一个新创建的hive表其TBL_ID就是271786，同时SEQUENCE_TABLE表中271786被更新为271791(这里每次都是+5而不是预料中的+1，有些奇怪)。同样，COLUMN，PARTITION等都有相应的记录。

从上面两张表的内容来看，hive表创建表的过程已经比较清楚了

解析用户提交hive语句，对其进行解析，分解为表、字段、分区等hive对象
根据解析到的信息构建对应的表、字段、分区等对象，从SEQUENCE_TABLE中获取构建对象的最新ID，与构建对象信息(名称，类型等)一同通过DAO方法写入到元数据表中去，成功后将SEQUENCE_TABLE中对应的最新ID+5。

实际上我们常见的RDBMS都是通过这种方法进行组织的，典型的如postgresql，其系统表中和hive元数据一样裸露了这些id信息(oid,cid等),而Oracle等商业化的系统则隐藏了这些具体的ID。

有了上面的信息，再想获得hive的建表语句已经是易如反掌了，这里提供一个已经开发好的脚本，使用shell开发，大家可以自由修改。注意:其中mysql连接信息请根据实际环境进行配置。

点击下载

使用方法如下:

hivesql sql <table|file> — 获取指定hive表或指定文件中所有hive表的DDL，如果有按天的分区则默认执行最近7天的分区DDL。同时，table支持符合sql语法的正则表达式，如果有多个表匹配，则提示用户选择(使用file则自动关闭该交互功能)。
hivesql synctab <table|file> — 基本同上，但是会将得到的DDL提交到当前的hive环境，可用来在不同的hive环境中复制表结构。

如果需要多天分区DDL还可以这样用(前提是分区中含有日期信息，如pt=20100720):

hivesql sql s_table 20100702 — 除建表语句外，获得自20100702以来的分区DDL
hivesql sql s_table 20100702 20100725 — ………………………..自20100702-20100725的分区DDL
hivesql sql s_table 20100702 10 — ………………………..自20100702起10天的分区DDL

hivesql synctab和hivesql sql一样支持上述日期限定功能。

此外，还提供了两个附加的功能(也很有用呃)

hivesql loc <reg> — 根据关键字查找能够匹配到的hive表或对应的数据路径
hivesql hdfswc <hdfsdir> — 获取指定数据目录下所有数据的总行数，支持普通文本，TextFile和SequenceFile的压缩格式，类似于linux下的wc -l

来源： http://blog.csdn.net/wf1982/article/details/6644258

hive 元数据解析的更多相关文章

[Hive]HiveSQL解析原理
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用.美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析.Hive的稳定性和 ...
大数据学习（11）—— Hive元数据服务模式搭建
这一篇介绍Hive的安装及操作.版本是Hive3.1.2. 调整部署节点在Hadoop篇里,我用了5台虚拟机来搭建集群,但是我的电脑只有8G内存,虚拟机启动之后卡到没法操作,把自己坑惨了. Hive ...
如何监听对 HIVE 元数据的操作
目录简介 HIVE 基本操作获取 HIVE 源码编译 HIVE 源码启动 HIVE 停止 HIVE 监听对 HIVE 元数据的操作参考文档简介公司有个元数据管理平台,会定期同步 HIVE ...
hive元数据研究
hive的元数据存放在关系型数据库中,元数据中存储了hive中所有表格的信息,包括表格的名字,表格的字段,字段的类型,注释.这些信息分散的存放在各个表中,给定一个hive中的表格名字,查询这个表中含有 ...
spark on yarn模式下配置spark-sql访问hive元数据
spark on yarn模式下配置spark-sql访问hive元数据目的:在spark on yarn模式下,执行spark-sql访问hive的元数据.并对比一下spark-sql 和hive ...
ADO.NET实体框架Entity Framework模型-基于元数据解析
上一篇简单介绍了EF的XML模型结构,在基于xml解析一文中,主要使用xml查询技术Xpath,XQuery来得到实体模型中相应信息的,由于这种方式在数据库庞大,表关系复杂的情况下,有诸 ...
hive中解析json数组
-- hive中解析json数组 select t1.status ,substr(ss.col,,) as col ,t3.evcId ,t3.evcLicense ,t3.evcAddress , ...
Hive元数据启动失败，端口被占用
org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0. ...
Hive部分函数解析
Hive部分函数解析 Hive里的exists ,in ,not exists ,not in 相关函数表数据准备: 1.选择指定数据库 eg: use bg_database1; 2. 创建表 ...

随机推荐

7.26 面向对象_封装_property_接口
封装封装就是隐藏内部实现细节, 将复杂的,丑陋的,隐私的细节隐藏到内部,对外提供简单的访问接口为什么要封装 1.保证关键数据的安全性 2.对外部隐藏实现细节,隔离复杂度什么时候应该封装 1.当 ...
Jvm内存泄漏
内存泄漏和内存溢出的关系内存泄露:指程序中动态分配内存给一些临时对象,但是对象不会被GC所回收,它始终占用内存.即被分配的对象可达但已无用. 内存溢出:指程序运行过程中无法申请到足够的内存而导致的一 ...
记录 Java 的 BlockingQueue 中的一些坑
最近学习了 BlockingQueue,发现 java 的 BlockingQueue 并不是每一个实现都按照 BlockingQueue 的语意来的,其中有不少坑. 直接上代码吧: 1.关于Prio ...
Tesseract：简单的Java光学字符识别
1.1 介绍开发具有一定价值的符号是人类特有的特征.对于人们来说识别这些符号和理解图片上的文字是非常正常的事情.与计算机那样去抓取文字不同,我们完全是基于视觉的本能去阅读它们. 另一方面,计算机的工 ...
2019年 iPad无法充电
2019年 iPad无法充电到售后网点检测没毛病,可能是apple产品做了低温保护逻辑机制低温无法充电,或者说是冬天温度跟iPad电池充电温度要求不符.各位有遇到情况的可以看看是不是这种问题,这问 ...
Java连载22-for循环
一.循环结构在程序当中总有一些需要反复的/重复的执行的代码,假设没有循环结构,那么这段需要重复执行的代码自然式子最需要重复编写的,代码无法得到重复使用,所以多数编程语言都是支持循环结构的,将来把需要 ...
随笔编号-01 如何比较日期类型的String 大小浅谈.
有三种解决方法: 第一种直接用字符串类的compareTo方法: String t1="20160707"; String t2="20160708"; int ...
RANSAC简史（一）——RANSAC之初
在开始正式的介绍之前,先做一个简单的定义,以免产生歧义: 1.本文中的“数据点”是指: 1)对于直线拟合.平面拟合等问题,即为相应的二维/三维坐标点: 2)对于从匹配点中估计基本矩阵.单应矩阵等问题, ...
Spring学习之旅(二)--容器
在 Spring 应用中,所有的对象都在 Spring 容器(container) 里,容器负责对象的创建.配置.装配并管理它们的整个生命周期. Spring 容器 Spring 容器并不是只有一个 ...
系统模块 OS
os.system("系统命令") 调用系统命令 os.system("task kill /f /im 系统的进程") 关闭系统进程 os.listdir( ...

hive 元数据解析

hive 元数据解析的更多相关文章

随机推荐

热门专题