在安装Hive时，需要在hive-site.xml文件中配置元数据相关信息。与传统关系型数据库不同的是，hive表中的数据都是保存的HDFS上，也就是说hive中的数据库、表、分区等都可以在HDFS找到对应的文件。这里说到的元数据可以理解成hive中用于保存数据库、表、分区或者表字段等基本属性，以及这些属性与HDFS文件对应关系的一个映射。

　　这些映射关系比较常见的一个场景是保存在mysql数据库中。接下来会分析hive安装时的一些配置信息，以及元数据库中主要表的用途。

一、hive配置

　　有关hive的配置都在hive-site.xml文件中。

属性	描述	默认值
hive.metastore.warehouse.dir	指定hive表在hdfs上的存储路径	/user/hive/warehouse
javax.jdo.option.ConnectionURL	配置元数据的连接URL
javax.jdo.option.ConnectionUserName	元数据库连接用户名
javax.jdo.option.ConnectionPassword	元数据库连接密码

比如如下的配置：

<property>

  <name>javax.jdo.option.ConnectionURL</name>

  <value>jdbc:mysql://m000:3306/hive</value>

  <description>JDBC connect string for a JDBC metastore</description>

</property>

<property>

  <name>javax.jdo.option.ConnectionUserName</name>

  <value>hiveuser</value>

  <description>username to use against metastore database</description>

</property>

<property>

  <name>javax.jdo.option.ConnectionPassword</name>

  <value>hiveuser</value>

  <description>password to use against metastore database</description>

</property>

　　在hive中，默认情况下新建的数据库以及表都位于HDFS的hive.metastore.warehouse.dir路径下。如下图分别显示了数据库，表，以及表文件在HDFS上的文件路径

　　

　　根据javax.jdo.option.ConnectionURL中设置的数据库，以及用户名和密码，hive就可以写入和读取其元数据信息。

　　连接元数据库除了配置URL，username，password之外，还有一种间接的方式。可以在hive客户端A上用hive --service metastore启动一个metastore服务，然后在另外一个hive客户端B的hive-site.xml文件中配置hive.metastore.uris=thrift://A:9083也可以访问到元数据信息(9083端口为默认，可使用-p参数手动指定)。

二、元数据库表描述

　　这一节描述hive元数据库中比较重要的一些表的作用，随着后续对hive的使用逐渐补充更多的内容。

mysql元数据库hive中的表：

表名	作用
BUCKETING_COLS	存储bucket字段信息，通过SD_ID与其他表关联
CDS	一个字段CD_ID，与SDS表关联
COLUMNS_V2	存储字段信息，通过CD_ID与其他表关联
DATABASE_PARAMS	空
DBS	存储hive的database信息
DELETEME1410257703262	空
FUNCS	空
FUNC_RU	空
GLOBAL_PRIVS	全局变量，与表无关
IDXS	空
INDEX_PARAMS	空
PARTITIONS	分区记录，SD_ID, TBL_ID关联
PARTITION_KEYS	存储分区字段，TBL_ID关联
PARTITION_KEY_VALS	分区的值，通过PART_ID关联。与PARTITION_KEYS共用同一个字段INTEGER_IDX来标示不同的分区字段。
PARTITION_PARAMS	存储某分区相关信息，包括文件数，文件大小，记录条数等。通过PART_ID关联
PART_COL_PRIVS	空
PART_COL_STATS	空
PART_PRIVS	空
ROLES	角色表，和GLOBAL_PRIVS配合，与表无关
SDS	存储输入输出format等信息，包括表的format和分区的format。关联字段CD_ID,SERDE_ID
SD_PARAMS	空
SEQUENCE_TABLE	存储sqeuence相关信息，与表无关
SERDES	存储序列化反序列化使用的类
SERDE_PARAMS	序列化反序列化相关信息，通过SERDE_ID关联
SKEWED_COL_NAMES	空
SKEWED_COL_VALUE_LOC_MAP	空
SKEWED_STRING_LIST	空
SKEWED_STRING_LIST_VALUES	空
SKEWED_VALUES	空
SORT_COLS	排序字段，通过SD_ID关联
TABLE_PARAMS	表相关信息，是否外部表，通过TBL_ID关联
TAB_COL_STATS	空
TBLS	存储表信息，关联字段DB_ID,SD_ID,
TBL_COL_PRIVS	空
TBL_PRIVS	表赋权限相关信息，通过TBL_ID关联
VERSION	版本
VERSION_copy	版本，通过VER_ID关联

　　这里补充介绍hive的一个工具脚本metatool。如果需要大量修改元数据库中的相关记录，可以具体查看metatool脚本的使用方法。

　　比如说，对一个HDFS做HA的时候，如果之前hdfs完整路径是hdfs://m000，做完HA之后把dfs.nameservices设置为my-cluster之后，hdfs的访问路径就变成了hdfs://my-cluster，此时就需要对hive元数据库中所有记录作更新，这时可以参考下面的操作，

使用metatool脚本，先是新路径，然后是旧路径

/usr/local/bigdata/hive/bin/metatool -updateLocation hdfs://my-cluster hdfs://m000

三、元数据库一些查询

　　有时根据需求，需要对hive中的表批量处理，这时可以到元数据库中进行一些查询操作，操作请慎重！！

　　下面会根据元数据库中的表结构和关联关系，陆续补充一些工作中使用到的查询语句。

1、查询某表的分区

　　在Spark-sql查询hive表时，会由于元数据中文件与hdfs文件不一致而出现TreeNodeException的异常。比如说，在hive中show partitions时有分区pt=20160601，但是对应HDFS路径下并没有这个子文件夹时，在Spark-sql中就会出现该异常。这时如果需要查询某表的分区，就可以使用如下语句

SELECT p.* from PARTITIONS p

JOIN TBLS t

ON t.TBL_ID=p.TBL_ID

WHERE t.TBL_NAME='table'

AND PART_NAME like '%pt=20160601%';

2、查询指定库中stored as textfile类型的所有表名

select

  d.NAME,

  t.TBL_NAME,

  s.INPUT_FORMAT,

  s.OUTPUT_FORMAT

from TBLS t

join DBS d

join SDS s

where t.DB_ID = d.DB_ID

and t.SD_ID = s.SD_ID

and d.NAME='test'

and s.INPUT_FORMAT like '%TextInputFormat%';

3、查询指定库中的分区表

select

  db.NAME,

  tb.TBL_NAME,

  pk.PKEY_NAME

from TBLS tb

join DBS db

join PARTITION_KEYS pk

where tb.DB_ID = db.DB_ID

and tb.TBL_ID=pk.TBL_ID

and db.NAME='test';

4、查询指定库的非分区表

select

  db.NAME,

  tb.TBL_NAME

from TBLS tb

join DBS db

where tb.DB_ID = db.DB_ID

and db.NAME='test'

and tb.TBL_ID not in (

  select distinct TBL_ID from PARTITION_KEYS

) ;

5、查询指定库中某种存储类型的分区表

select

  db.NAME,

  tb.TBL_NAME,

  pk.PKEY_NAME,

  s.INPUT_FORMAT,

  s.OUTPUT_FORMAT

from TBLS tb

join DBS db

join PARTITION_KEYS pk

join SDS s

where tb.DB_ID = db.DB_ID

and tb.TBL_ID=pk.TBL_ID

and tb.SD_ID = s.SD_ID

and db.NAME='test'

and s.INPUT_FORMAT like '%TextInputFormat%';

6、查询指定库中某种存储类型的非分区表

select

  db.NAME,

  tb.TBL_NAME,

  s.INPUT_FORMAT,

  s.OUTPUT_FORMAT

from TBLS tb

join DBS db

join SDS s

where tb.DB_ID = db.DB_ID

and tb.SD_ID = s.SD_ID

and db.NAME='test'

and s.INPUT_FORMAT like '%TextInputFormat%'

and tb.TBL_ID not in (select distinct TBL_ID from PARTITION_KEYS);

hive元数据库表分析及操作的更多相关文章

hive 元数据库表描述
元数据库表描述这一节描述hive元数据库中比较重要的一些表的作用,随着后续对hive的使用逐渐补充更多的内容. mysql元数据库hive中的表: 表名作用 BUCKETING_COLS 存储bu ...
Hive 修改表结构常用操作
添加列 add columns alter table table_name add columns (id int comment '主键ID' ) ; 默认在表所有字段之后,分区字段之前. 替换 ...
Hive 元数据库表信息
Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理. 1. 版本表 i) VERSION -- 查询版本信息 2. 数据库.文件存储相关 i) DBS -- 存储 ...
Hive中小表与大表关联(join)的性能分析【转】
Hive中小表与大表关联(join)的性能分析 [转自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html] 经常看到一些Hive优化的建议中说当 ...
Hive命令行经常使用操作（数据库操作，表操作）
数据库操作查看全部的数据库 hive> show databases ; 使用数据库default hive> use default; 查看数据库信息 hive > descri ...
Hive与表操作有关的语句
Hive与表操作有关的语句 1.创建表的语句: Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COM ...
Hive的基本知识与操作
Hive的基本知识与操作目录 Hive的基本知识与操作 Hive的基本概念为什么使用Hive? Hive的特点: Hive的优缺点: Hive应用场景 Hive架构 Client Metastor ...
数据存入hive数据表之前对.csv（数据集）文件的预处理以及数据的上传
对于数据集文件,在将其中的数据存入hive之前,需要将数据进行预处理. 1.删除文件第一行记录,即字段名称 sed -i '1d' raw_user //1d表示删除第1行,同理,3d表示删除第3行, ...
使用logminer挖掘日志，分析历史操作系列一
===============STARTED==================================== 事件起因: 业务的人mail过来说是有张表记录的10K+的优惠码记录没了,要我们确 ...

随机推荐

[HAOI 2011]Problem b
Description 对于给出的n个询问,每次求有多少个数对(x,y),满足a≤x≤b,c≤y≤d,且gcd(x,y) = k,gcd(x,y)函数为x和y的最大公约数. Input 第一行一个整数 ...
[Luogu 1730]最小密度路径
Description 给出一张有N个点M条边的加权有向无环图,接下来有Q个询问,每个询问包括2个节点X和Y,要求算出从X到Y的一条路径,使得密度最小(密度的定义为,路径上边的权值和除以边的数量). ...
codefroces 55D Beautiful numbers
[Description] 美丽数是指能被它的每一位非0的数字整除的正整数. [Input] 包含若干组数据,每组数据一行两个数n,m,表示求[n,m]之间的美丽数的个数. [output] 对于每组 ...
codeforces round #419 B. Karen and Coffee
To stay woke and attentive during classes, Karen needs some coffee! Karen, a coffee aficionado, want ...
SAM维护的在线LCS
题目大意: 给定两个字符串,存在三种操作,分别是在a,b串末尾加一个字符串,和询问两串的LCS 题解: Get新套路:把两串建在同一SAM上,将重合的位置合并为同一节点,再加个标记数组,如果两者的LC ...
[Apio2009][bzoj1179]Atm
题意:一个n个点m条单向边的图,每个点有权值,给定出发点和p个可以停止的点,你可以随便走一条路径从出发点走到一个可以停止的点,但是每个点的点权只能计算一次,求能得到的最大权值. n,m<=500 ...
Mysql 基于GTID的主从复制(实操)
实现环境: Master 主:192.168.0.102 (Mysql 5.6.36) Slave 从 :192.168.0.103 (Mysql 5.6.36) 步骤1.在主DB服务器上建立复制账 ...
Chinese-Text-Classification：Tensorflow CNN 模型实现的中文文本分类器[不分词版]
从现在的结果来看,分词的版本准确率稍微高一点. 训练过程: 模型评估: 实验三,准备换一下数据集,用这里的数据集来跑这个模型:https://zhuanlan.zhihu.com/p/30736422 ...
iOS 隐藏导航条分割线
// 导航条分割线 @property (nonatomic, strong) UIView *navSeparateView; // 获取导航条分割线 UIView *backgroundView ...
初识 Runtime
前言之前在看一些第三方源码的时候,时不时的能碰到一些关于运行时相关的代码.于是乎,就阅读了一些关于运行时的文章,感觉写的都不错,写此篇文章为了记录一下,同时也重新学习一遍. Runtime简介 Ru ...

hive元数据库表分析及操作