hive元数据研究
hive的元数据存放在关系型数据库中,元数据中存储了hive中所有表格的信息,包括表格的名字,表格的字段,字段的类型,注释。这些信息分散的存放在各个表中,给定一个hive中的表格名字,查询这个表中含有的所有字段,使用如下的SQL语句:
mysql> select COLUMNS_V2.* from COLUMNS_V2,SDS, TBLS where COLUMNS_V2.CD_ID = SDS.CD_ID and SDS.SD_ID = TBLS.SD_ID and TBLS.TBL_NAME='dwd_medical_hospital_dd';
+-------+--------------------------------------+-------------+-----------+-------------+
| CD_ID | COMMENT | COLUMN_NAME | TYPE_NAME | INTEGER_IDX |
+-------+--------------------------------------+-------------+-----------+-------------+
| 603 | 地址 | address | string | 2 |
| 603 | 医院类型 | clean_type | string | 14 |
| 603 | 采集时间 | create_time | string | 10 |
| 603 | 所在大区 | extend_area | string | 13 |
| 603 | 所在城市 | extend_city | string | 11 |
| 603 | 所在省份 | extend_prov | string | 12 |
| 603 | 路线 | howtogo | string | 3 |
| 603 | 主键ID/在其它表中表示为外键:hosp_id | id | string | 0 |
| 603 | 医院等级 | level | string | 4 |
| 603 | 医院名字 | name | string | 1 |
| 603 | 简介 | profiles | string | 7 |
| 603 | 区域ID/城市ID | prov_id | string | 5 |
| 603 | 资源配置量 | resouce | string | 8 |
| 603 | 电话 | telephone | string | 6 |
| 603 | 采集URL | url | string | 9 |
| 583 | 地址 | address | string | 2 |
| 583 | 医院类型 | clean_type | string | 14 |
| 583 | 采集时间 | create_time | string | 10 |
| 583 | 所在大区 | extend_area | string | 13 |
| 583 | 所在城市 | extend_city | string | 11 |
| 583 | 所在省份 | extend_prov | string | 12 |
| 583 | 路线 | howtogo | string | 3 |
| 583 | 主键ID/在其它表中表示为外键:hosp_id | id | string | 0 |
| 583 | 医院等级 | level | string | 4 |
| 583 | 医院名字 | name | string | 1 |
| 583 | 简介 | profiles | string | 7 |
| 583 | 区域ID/城市ID | prov_id | string | 5 |
| 583 | 资源配置量 | resouce | string | 8 |
| 583 | 电话 | telephone | string | 6 |
| 583 | 采集URL | url | string | 9 |
+-------+--------------------------------------+-------------+-----------+-------------+
30 rows in set
mysql> select COLUMNS_V2.* from COLUMNS_V2,SDS, TBLS where COLUMNS_V2.CD_ID = SDS.CD_ID and SDS.SD_ID = TBLS.SD_ID and TBLS.TBL_NAME='dws_info_doctor_dd';
+-------+----------+----------------+-----------+-------------+
| CD_ID | COMMENT | COLUMN_NAME | TYPE_NAME | INTEGER_IDX |
+-------+----------+----------------+-----------+-------------+
| 673 | 年龄 | age | string | 3 |
| 673 | 科室ID | department_id | string | 10 |
| 673 | 从诊年限 | diagnosis_time | string | 6 |
| 673 | 履历 | experience | string | 8 |
| 673 | 擅长疾病 | good | string | 5 |
| 673 | NULL | hosp_id | string | 11 |
| 673 | 主键ID | id | string | 0 |
| 673 | 医生名称 | name | string | 1 |
| 673 | 门诊量 | outpatient_num | string | 7 |
| 673 | 医生职称 | position | string | 2 |
| 673 | 评分 | score | string | 9 |
| 673 | 性别 | sex | string | 4 |
| 758 | 年龄 | age | string | 3 |
| 758 | 科室ID | department_id | string | 10 |
| 758 | 从诊年限 | diagnosis_time | string | 6 |
| 758 | 履历 | experience | string | 8 |
| 758 | 擅长疾病 | good | string | 5 |
| 758 | NULL | hosp_id | string | 11 |
| 758 | 主键ID | id | string | 0 |
| 758 | 医生名称 | name | string | 1 |
| 758 | 门诊量 | outpatient_num | string | 7 |
| 758 | 医生职称 | position | string | 2 |
| 758 | 评分 | score | string | 9 |
| 758 | 性别 | sex | string | 4 |
| 732 | 年龄 | age | string | 3 |
| 732 | 科室ID | department_id | string | 10 |
| 732 | 从诊年限 | diagnosis_time | string | 6 |
| 732 | 履历 | experience | string | 8 |
| 732 | 擅长疾病 | good | string | 5 |
| 732 | 主键ID | id | string | 0 |
| 732 | 医生名称 | name | string | 1 |
| 732 | 门诊量 | outpatient_num | string | 7 |
| 732 | 医生职称 | position | string | 2 |
| 732 | 评分 | score | string | 9 |
| 732 | 性别 | sex | string | 4 |
+-------+----------+----------------+-----------+-------------+
35 rows in set
hive元数据中相关的表格关系如下:

hive元数据研究的更多相关文章
- hive 元数据解析
在使用Hive进行开发时,我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具. 要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并不存放在 ...
- 如何监听对 HIVE 元数据的操作
目录 简介 HIVE 基本操作 获取 HIVE 源码 编译 HIVE 源码 启动 HIVE 停止 HIVE 监听对 HIVE 元数据的操作 参考文档 简介 公司有个元数据管理平台,会定期同步 HIVE ...
- spark on yarn模式下配置spark-sql访问hive元数据
spark on yarn模式下配置spark-sql访问hive元数据 目的:在spark on yarn模式下,执行spark-sql访问hive的元数据.并对比一下spark-sql 和hive ...
- Hive元数据启动失败,端口被占用
org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0. ...
- Hive实现自增序列及常见的Hive元数据问题处理
Hive实现自增序列 在利用数据仓库进行数据处理时,通常有这样一个业务场景,为一个Hive表新增一列自增字段(比如事实表和维度表之间的"代理主键").虽然Hive不像RDBMS如m ...
- Hive——元数据表含义
Hive--元数据表含义 1.VERSION -- 查询版本信息 Field Type Comment VER_ID bigint(20) ID主键 SCHEMA_VERSION va ...
- 大数据学习(11)—— Hive元数据服务模式搭建
这一篇介绍Hive的安装及操作.版本是Hive3.1.2. 调整部署节点 在Hadoop篇里,我用了5台虚拟机来搭建集群,但是我的电脑只有8G内存,虚拟机启动之后卡到没法操作,把自己坑惨了. Hive ...
- 再谈Hive元数据如hive_metadata与Linux里MySQL的深入区别(图文详解)
不多说,直接上干货! [bigdata@s201 conf]$ vim hive-site.xml [bigdata@s201 conf]$ pwd /soft/hive/conf [bigdata@ ...
- Hive元数据找回
如果不小心删除了了hive的元数据文件(/user/hive/warehouse),只要先前core-site.xml文件中设置了fs.trash.interval属性就可以找回.hdfs会为用户创建 ...
随机推荐
- python获取自己的环境变量
1. import sys sys.path 2. from distutils.sysconfig import get_python_lib get_python_lib() 3. import ...
- JSTL学习笔记
转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/6684442.html 一:JSTL用途 JSP标准标签库(JSTL)是一个JSP标签集合,它封装了JSP应用 ...
- Java并发容器——CopyOnWriteArrayList
CopyOnWriteArrayList是“读写分离”的容器,在写的时候是先将底层源数组复制到新数组中,然后在新数组中写,写完后更新源数组.而读只是在源数组上读.也就是,读和写是分离的.由于,写的时候 ...
- js 正则表达式校验必须包含字母、数字、特殊字符
1.情景展示 在注册时,密码要求必须同时包含:字母.数字.特殊字符,如何实现? 2.原因分析 用正则表达式进行校验,是最方便的! 3.解决方案 // 密码必须由 8-64位字母.数字.特殊符号组成 ...
- 【shell】各种括号()、(())、[]、[[]]、{}的使用
圆括号 1.单圆括号() ①命令组,括号中的命令将会开启一个子shell独立运行:括号中以分号连接,最后一个命令不需要;各命令和括号无需空格 Linux:/qins # (var=1;echo $va ...
- HttpServletResponse对象(二)
一.HttpServletResponse常见应用——生成验证码 1.1.生成随机图片用作验证码 生成图片主要用到了一个BufferedImage类,
- java的BASE64Encoder,BASE64Decoder加密与解密
package com.app.common; import java.io.ByteArrayOutputStream; import java.io.File; import java.io.Fi ...
- PHP-Windows下搭建PHP-MSF环境【原创】
环境: Windows7 64位 php-7.0.19 php-swoole-1.9.15 php-yac-2.0.2 php-redis-3.1.2 php-mongodb-1.2.10 遇坑: C ...
- atime,mtime,ctime 的理解
Linux之atime,mtime,ctime from:http://blog.sina.com.cn/s/blog_5980699f0100zkgz.html 首先可以使用stat 命令来查询文件 ...
- memcached缓存基本概念
Memcached是一套分布式内存对象缓存系统. 用于在动态应用系统中缓存数据库的数据,减少数据库的访问压力,达到提升网站系统性能的目的:memcached在企业应用场景中一般是用来作为数据库的cac ...