一、Schema SCM 表结构梳理(对应生产BAOFOO_SCM)

AUDITS

登录信息、服务,角色重启、配置更改

PROCESSES

进程信息。这里面有很多信息。开放的web端口。

HOSTS

主机信息,包括IP地址,所在机架,内存,CPU等信息

CLIENT_CONFIGS

客户端配置,里面有下载客户端配置的路径。

CONFIGS_AUD

配置审计表。

CLIENT_CONFIGS_TO_HOSTS

客户端配置文件与节点的对应关系

CLUSTERS

群集信息,CM管理多少个群集,就会有多条记录。

CM_VERSION

CM版本,服务安装时间,服务所在主机。

COMMANDS

命令记录,其中包括系统内部执行的命令。

COMMANDS_DETAIL

命令的详细内容。关联COMMANDS表。

COMMAND_SCHEDULES

CM内部命令执行调度元信息。

CONFIGS

配置表,改的配置,改之后的值,服务ID等。

CONFIGS_AUD

配置更改记录。

CREDENTIALS

Kerberos认证授权表,包含keytab文件

DIAGNOSTICS_EVENTS

诊断事件,关于parcels的激活,分发,停用有记录。

GLOBAL_SETTINGS

全局配置,包括自定义仪表盘信息

HOST_TEMPLATES

主机模板,模板名,所在主机。线上有hbase node和hdfs-yarn的模板。

HOST_TEMPLATE_TO_ROLE_CONF_GRP

主机模板和角色配置组的对应信息。

METRICS

各服务的监控项

PARCELS

parcels信息,是否可用,远程地址等等。

PARCEL_COMPONENTS

parcels名称与组件之间的映射关系。

REVISIONS

版本信息,CM变更之后,会产生一个新的版本。

ROLES

群集中的角色信息

ROLE_CONFIG_GROUPS

角色对应的角色组信息

SERVICES

服务名,页面显示的一些信息。

SNAPSHOT_POLICIES

快照策略(用户备份以及灾难恢复方面)

USERS

CM群集中的用户信息(启用认证时)

USER_AUTH_ROLES

用户与认证角色对应关系

该库记录了关于CM服务中的元数据、操作记录、用户登录、监控项采集、kerberos认证等等信息。

REVISIONS 每一次通过CM产生的变更都会产生一条记录。包括重启服务、修改服务、角色配置、修改CM配置。

AUDITS以及*_AUD为审计相关的信息记录。包括类如HOSTS,ROLES的元数据表。

AUDITS (审计表,登陆日志,重启服务,群集,激活、停用parcels等操作)。

1、监控有没有暴力登录

示例:以下SQL查询五分钟内登录失败次数超过10次的用户名,以及登录IP。

SELECT

*

FROM

(

SELECT

SUBSTRING_INDEX(MESSAGE, ':' ,- 1) user_name,

IP_ADDRESS ip_addr,

count(1) AS login_counts

FROM

AUDITS

WHERE

AUDIT_TYPE = 'AUTHENTICATION'

AND ALLOWED = 0

AND TIMESTAMPDIFF(

MINUTE,

FROM_UNIXTIME(LEFT(CREATED_INSTANT, 10)),

CURRENT_TIMESTAMP ()

) < 5

GROUP BY

user_name,

ip_addr

) b

WHERE

b.login_counts > 10;

2、监控配置修改

SELECT

t3.DISPLAY_NAME,

t1.ATTR,

t1.`VALUE`

FROM

CONFIGS_AUD t1

LEFT JOIN REVISIONS t2 ON t1.REV = t2.REVISION_ID

LEFT JOIN SERVICES t3 ON t1.SERVICE_ID = t3.SERVICE_ID

WHERE

TIMESTAMPDIFF(

MINUTE,

FROM_UNIXTIME(LEFT(t2.`TIMESTAMP`, 10)),

CURRENT_TIMESTAMP ()

) < 5;

HUE的http端口属性被改成8898

3、监控服务重启,重启impala服务。

SELECT

SUBSTRING_INDEX(t3.message, ':' ,- 1),

t2.INFO,

t2.IP_ADDRESS

FROM

(

SELECT

GROUP_CONCAT(

MESSAGE

ORDER BY

CREATED_INSTANT SEPARATOR ' 结果:'

) INFO,

GROUP_CONCAT(IP_ADDRESS) IP_ADDRESS

FROM

AUDITS t1

WHERE

CREATED_INSTANT > REPLACE (

UNIX_TIMESTAMP(

DATE_ADD(NOW(3), INTERVAL - 50 MINUTE)

),

'.',

''

)

AND AUDIT_TYPE = 'COMMAND_SERVICE'

) t2

LEFT JOIN (

SELECT

message,

IP_ADDRESS,

CREATED_INSTANT

FROM

AUDITS

WHERE

AUDIT_TYPE = 'AUTHENTICATION'

) t3 ON t3.IP_ADDRESS = t2.IP_ADDRESS

ORDER BY

t3.CREATED_INSTANT DESC

LIMIT 1;

二、HIVE元数据表(对应生产BAOFOO_HIVE)

与上述不同,这不属于Cloudera 公司Hadoop发行版独有的。

DBS

数据库信息,DB名,所在位置。

COLUMNS_V2

表的列信息,注释,列名,列的数据类型,列在表中的位置。通过CD_ID与CDS表关联

TBL_PRIVS

表的授权信息。

TABLE_PARAMS

表的基本信息,最后更改时间,总大小,原生数据大小,行数,文件数量

SERDE_PARAMS

字符分隔符,虚拟化格式信息。通过SERDE_ID与SERDES关联

SDS

表的属性信息,输入格式(表存储类型),是否压缩,所在位置,占桶的数量,等。通过SERDE_ID与SERDES关联

SERDES

虚拟化和反虚拟化的信息。

CDS

只有一列,表的唯一ID

TBLS

存储Hive表、视图、索引表的基本信息。创建时间,上次访问时间,所有者、表名,视图HQL语句

PARTITION_KEYS

表的分区信息,表名,分区键注释,分区键名,类型,联合分区所在位置

PARTITION_KEY_VALS

已有分区信息。

PARTITION_PARAMS

分区属性信息,某个分区的文件数量,总代小,最后访问时间等。

PARTITIONS

分区的基本信息,分区ID,分区创建时间,最后访问时间,分区名,分区存储ID,表ID

VERSION

存储Hive版本的元数据表,如果该表不存在,启动hive-cli的时候会报Table ‘hive.version’ doesn’t exist”

1、HIVE中库表数据量统计。

SELECT d.`NAME` "库",count(1) "表数量" from TBLS t RIGHT  JOIN DBS d ON t.DB_ID = d.DB_ID group BY d.DB_ID  ;

2、表大小统计

SELECT

round(CAST(a.PARAM_VALUE AS SIGNED)/1024/1024/1024,0) v,

b.TBL_NAME,

c.`NAME`

FROM

TABLE_PARAMS a

LEFT JOIN TBLS b ON a.TBL_ID = b.TBL_ID

LEFT JOIN DBS c ON b.DB_ID = c.DB_ID

WHERE

a.PARAM_KEY = 'totalSize' -- AND c.`NAME` NOT like 'tmp%'

ORDER BY

v DESC;

CDH CM元数据梳理,包括HIVE的更多相关文章

  1. Sqoop(三)将关系型数据库中的数据导入到HDFS(包括hive,hbase中)

    一.说明: 将关系型数据库中的数据导入到 HDFS(包括 Hive, HBase) 中,如果导入的是 Hive,那么当 Hive 中没有对应表时,则自动创建. 二.操作 1.创建一张跟mysql中的i ...

  2. CDH CM安装及简单群集部署测试

    前吃人的故事开始了,金钱是如何吃人的呢?我在想ing,还没想通,一起吧,哈哈: 入题,别胡扯,误人子弟!!!! CM@@!!!!!!....................., 先来张monitor ...

  3. CDH CM版本 6.0.1 升级到 CM 6.2.0 当前最新版本(CentOS 7.x)

    CDH 的 6.0.1 是一个尴尬的版本,那时候 cloudera 还没有将 spark 更新到 2.4 还使用的是 spark 2.2版本. 但后来我们发现 2.3 | 2.4 更新了非常多的 fe ...

  4. 基于Hive进行数仓建设的资源元数据信息统计:Hive篇

    在数据仓库建设中,元数据管理是非常重要的环节之一.根据Kimball的数据仓库理论,可以将元数据分为这三类: 技术元数据,如表的存储结构结构.文件的路径 业务元数据,如血缘关系.业务的归属 过程元数据 ...

  5. 基于CDH 5.9.1 搭建 Hive on Spark 及相关配置和调优

    Hive默认使用的计算框架是MapReduce,在我们使用Hive的时候通过写SQL语句,Hive会自动将SQL语句转化成MapReduce作业去执行,但是MapReduce的执行速度远差与Spark ...

  6. ubuntu下搭建hive(包括hive的web接口)记录

    Hive版本 0.12.0(独立模式) Hadoop版本 1.12.1 Ubuntu 版本 12.10 今天试着搭建了hive,差点迷失在了网上各种资料中,现在把我的经验分享给大家,亲手实践过,但未必 ...

  7. CDH:5.14.0 中 Hive BUG记录

    CDH5.14.0使用的HIVE版本: 自建表log: +----------------------------------------------------+--+ | createtab_st ...

  8. CDH hue下定时执行hive脚步

        今天在看oozie时发现能在hue中执行hive 脚本,主要是hue 和 oozie结合使用,下面介绍下怎么使用的,挺恶心的,哈哈(在这里就不哔哔了) 提交oozie定时作业 1.进入hue界 ...

  9. troubleshooting-windows 在 CDH集群环境读取 Hive 表 KrbException: Cannot locate default realm

    KrbException: Cannot locate default realm 解决办法 1)拷贝需要组件的配置文件到项目中的 /resources/目录.如hadoop,目录/etc/hadoo ...

随机推荐

  1. VLC-FM PLAYLIST

    VLC-FM-PLAYLIST.xspf <?xml version="1.0" encoding="UTF-8"?> <playlist x ...

  2. ASP .NET Controller返回类型

    返回类型 return View(model); 即返回htmlreturn Json("String"); 返回Json格式的数据return File(new byte[] { ...

  3. WPF Layout 系统概述——Arrange

    原文:WPF Layout 系统概述--Arrange Arrange过程概述 普通基类属性对Arrange过程的影响 我们知道Measure过程是在确定DesiredSize的大小,以便Arrang ...

  4. 数据绑定(三)为Binding指定绑定源的几种方法

    原文:数据绑定(三)为Binding指定绑定源的几种方法 Binding的源是数据的来源,所以,只要一个对象包含数据并能通过属性把数据暴露出来,它就能当作Binding的源来使用,常用的办法有: 一. ...

  5. jquery 鼠标经过延时触发事件,jquery插件

    jquery 鼠标经过延时触发事件. 用来做:鼠标经过选项卡,延时切换,鼠标经过商城分类延时显示,最好不过,防止用户随便滑动就切换了选项卡. 一.引入jq 二.加入以下插件代码 /* * 鼠标经过延时 ...

  6. 没必要看源码。。把文档学通就已经牛逼了(我们大多还是在应用层,还达不到研究的程度。附class与examples大全链接)

    [学霸]深圳-鑫 2017/7/11 13:54:07只是学习怎么用QT的话,不用看源码.看帮助文档就很好要学习编码风格与思路,就看看源码 [学神]武汉-朝菌 2017/7/11 13:54:39没必 ...

  7. Kali Linux安装TL-WN821N USB无线网卡驱动(make失败)

    主要有下面几个步骤: 1.刚插上网卡,network-manager识别出来了网卡,也能搜索到WiFi,但就是连接不上.查看/var/log/syslog日志或者使用nmcli m查看网络信息,显示认 ...

  8. Android零基础入门第6节:配置优化SDK Manager,正式约会女神

    原文:Android零基础入门第6节:配置优化SDK Manager,正式约会女神 在前几期中总结分享了Android的前世今生.Android 系统架构和应用组件那些事.带你一起来聊一聊Androi ...

  9. 基于svg.js实现可编辑的图像

    svg.js的git地址https://github.com/svgdotjs/svg.js 实现可以拖动,可双击编辑,可拖动改变长短,线条可旋转以及一个可点击改变大小,可更改内容的二维码. 首先引入 ...

  10. 电脑睡眠状态(ACPI规范定义了七个状态,使用powercfg -a进行查看)

    ACPI规范定义了一台兼容ACPI的计算机系统可以有以下七个状态(所谓的全局状态): G0('S0)正常工作状态:计算机的正常工作状态-操作系统和应用程序都在运行.CPU(s)执行指令.在这个状态下( ...