HBase 集群监控系统构建

标签(空格分隔): Hbase


一, 集群为什么需要监控系统

总的来说是为了保证系统的稳定性,可靠性,可运维性。具体来说我认为有以下几点:

掌控集群的核心性能指标,了解集群的性能表现。

集群出现问题时及时报警,便于Hbase运维同学及时修复问题。

集群重要指标值异常时进行预警,将问题扼杀在摇篮中,不用等集群真正不可用时才采取行动。

当集群出现问题时,监控系统可以帮助我们更快的定位问题和解决问题。无监控,不运维。

二, 如何构建HBase集群监控系统

一般来说,大公司内部都有企业统一的监控报警系统,开源的有zabbix以及小米的Open-Falcon。对于HBase集群来讲,我们所要做的就是将我们关心的指标项发送到公司的监控系统,并配置相关的报警信息即可。所以问题现在转化为我们应该开发,采集并上报哪些HBase集群监控项

三,HBase 集群监控项采集

3.1 主机基本监控项

CPU,内存,磁盘,网络 主机4大 基本监控项,这4项机器监控保证我们运行我们HBase集群的机器是正常的。

3.2 JVM监控项

HBase集群涉及的系统HDFS,HBase,ZooKeeper都是用Java编写的,系统都是运行在JVM中,所以我们必须采集JVM相关的监控项,尤其是JVM的GC信息。GC信息在整个大数据生态圈中都是极为重要的监控指标。

3.3 HBase集群各系统存活监控项

HBase集群各个系统的进程是否存活是必须也是最基本的监控项。具体有hmaster;regionserver;namenode;datanode;journalnode;zkfc;zookeeper的存活监控。具体判断存活的方式我们可以去判断各系统相应的进程是否存在,也可以去判断各系统的web页面或者jmx页面是否正常。

3.4 HBase集群各系统JMX监控项

JMX全称是Java Management Extensions,用于用于Java程序扩展监控和管理项。而许多Hadoop系统都提供了丰富的JMX监控项,所以我们可以直接从HBase系统本身提供的JMX信息获取我们需要的监控项。HBase提供的JMX信息的web页面,地址就是 http://your_hmaster:60010/jmx,JMX web页面的数据格式是json格式。由于信息比较多,也提供了一个qry=name的方式获取具体某一项所需的数据,例如:http://namenode:50070/jmx?qry=hadoop:service=NameNode,name=NameNodeInfo只收集nameinfo相关的数据。 所以我们可以用多线程或多进程同时采集多个指标项,同时也要注意在每个线程处理的时候数据应该是异步的,否则同步可能导致某一个指标项采集阻塞, 使得之后的所有指标项在一个采集周期内无法正常返回数据。

下面是一个python利用进程池异步请求多个url的例子:

#!/usr/bin/env python
# encoding: utf-8 import urllib2
import multiprocessing as mp results = [] def add_list(result):
results.append(result) class PoolHelper(object):
def __call__(self, index, url):
return self.open_url(index, url) def open_url(self, index, url):
try:
response = urllib2.urlopen(url, timeout = 10)
result = response.read()
except:
result = ''
return (index, result) def pool_url(self, urls):
pool = mp.Pool()
for index, url in enumerate(urls):
pool.apply_async(self, args=(index, url,), callback=add_list)
pool.close()
pool.join()
return results

JMX的信息我们除了可以从web页面抓取外,也可以用Java 程序直接attach到目标进程直接获取JMX信息。

例如:


3.5 HBase集群web页面监控项

我们也可以从HBase的16010和16020的web页面直接抓取集群的一些汇总信息。具体实现方式可以使用正则匹配,python也可以直接使用BeautifulSoup获取页面上我们需要的信息,BeautifulSoup简单,易用,强大。

3.6 HBase集群特有监控项

3.6.1 HBCK监控

关于HBCK的具体含义可以参考:

3.6.2 HBase Replication监控

主要是用来确定开启Replication的HBase集群都正常同步,这一块为了便于被python调用,我们使用了JRuby开发,JRuby语法和Ruby一样,只不过可以直接调用Java API。

hbase shell>
status 'replcation'

也可以用hbase-client自带方法。

3.6.3 HBase 探针程序

探针程序就是为了确定整个集群状态健康,一般是建表,写数据,读数据,删数据,删表。探针监控在storm,hdfs,yarn等等组件都应该有完整的回路监控。

3.7 HBase集群 表粒度和Region粒度指标监控

因为HBase本身的JMX监控指标没有表粒度和Region粒度,所以我们需要二次开发。

一。利用HBase的observer类型的协处理器来统计基于表粒度的put,get,scan等请求信息,然后发送到HBase的Metric,最后再从jmx页面抓取监控项。

二。抓取所有Hbase regionserver metrics 然后进行汇总并写入到时序数据库。

3.8 HBase客户端监控

以上的监控项都是服务端的,我们也需要用户使用的HBase客户端也有监控,客户端监控也是HBase服务质量的一个体现。

HBase 集群监控系统构建的更多相关文章

  1. 集群监控系统Ganglia应用案例

    集群监控系统Ganglia应用案例 --我们把集群系统投入生产环境后,这时就需要一套可视化的工具来监视集群系统,这将有助于我们迅速地了解机群的整体配置情况,准确地把握机群各个监控节点的信息,全面地察看 ...

  2. Hbase集群监控

    Hbase集群监控 Hbase Jmx监控 监控每个regionServer的总请求数,readRequestsCount,writeRequestCount,region分裂,region合并,St ...

  3. vivo 容器集群监控系统架构与实践

    vivo 互联网服务器团队-YuanPeng 一.概述 从容器技术的推广以及 Kubernetes成为容器调度管理领域的事实标准开始,云原生的理念和技术架构体系逐渐在生产环境中得到了越来越广泛的应用实 ...

  4. 【Ganglia】集群监控系统搭建

    参考博客 www.cnblogs.com/atomicbomb/p/6726119.html 操作系统 centos7  机器两台 一. 配置软件环境 操作步骤: 使用yum安装方式安装所需基础依赖包 ...

  5. Zookeeper Monitor集群监控开发

    随着线上越来越多的系统依赖Zookeeper集群.以至于Zookeeper集群的执行状况越来越重要.可是眼下还没有什么好用的Zookeeper集群监控系统(淘宝开源了一个Zookeeper监控系统,可 ...

  6. 基于开源软件构建高性能集群NAS系统,包括负载均衡(刘爱贵)

    大数据时代的到来已经不可阻挡,面对数据的爆炸式增长,尤其是半结构化数据和非结构化数据,NoSQL存储系统和分布式文件系统成为了技术浪潮,得到了长足的发展.非结构化数据目前呈现更加快速的增长趋势,IDC ...

  7. 「从零单排HBase 10」HBase集群多租户实践

    在HBase1.1.0发布之前,HBase同一集群上的用户.表都是平等的,大家平等共用集群资源.容易碰到两个问题: 一是某些业务较其他业务重要,需要在资源有限的情况下优先保证核心重要业务的正常运行 二 ...

  8. 基于docker快速搭建hbase集群

    一.概述 HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文"Bigtable:一个结构化数据的分布式存储系统".就像Bigt ...

  9. 使用 Ansible 快速部署 HBase 集群

    背景 出于数据安全的考虑,自研了一个低成本的时序数据存储系统,用于存储历史行情数据. 系统借鉴了 InfluxDB 的列存与压缩策略,并基于 HBase 实现了海量存储能力. 由于运维同事缺乏 Had ...

随机推荐

  1. <<C++ Primer>> 第四章 表达式

    术语表 第 4 章 表达式 算术转换(arithmetic conversion): 从一种算术类型转换成另一种算术类型.在二元运算符的上下文中,为了保留精度,算术转换通常把较小的类型转换成较大的类型 ...

  2. centos7搭建单机redis5.0

    目录 1. redis初步安装 2. 配置 3. 设置开机启动(centos6) 3.1 编写启动脚本 3.2 设置权限 3.3 启动测试 3.4 设置开机自启动 4. 设置开机启动(centos7) ...

  3. python基础预习小结

    一.执行python程序的两种方式 1.1 交互式 在终端内输入python3,然后输入python代码 1.2 命令式 在终端内输入python3文本文件路径 二.执行python的两种IDE 2. ...

  4. 带EFI支持的GRUB2安装全记录

    版权归作者所有,任何形式转载请联系作者. 作者:keenshoes(来自豆瓣) 来源:https://www.douban.com/note/210077866/  关键词:EFIGRUB2efibo ...

  5. vsftpd一些常用配置

    常用的全局配置 --设置监听的IP地址 listen_asspress=192.168.4.1 --设置监听FTP服务的端口号 listen_port=21 --是否允许下载文件 download_e ...

  6. python 中if __name__ = '__main__' 的作用

    python 中if __name__ = '__main__' 的作用 前言 首先我们要知道在python里面万物皆对象,模块也是对象,并且所有的模块都有一个内置属性 __name__. 一个模块的 ...

  7. 【leetcode389】389. Find the Difference

    异或 找不同 —.— public class Solution { public char findTheDifference(String s, String t) { char temp = 0 ...

  8. ip - Linux IPv4 协议实现

    SYNOPSIS(总览) #include <sys/socket.h> #include <net/netinet.h> tcp_socket = socket(PF_INE ...

  9. Nagios监控系统部署(源码)(四)

    Nagios监控系统部署(源码)   1. 概述2. 部署Nagios2.1 创建Nagios用户组2.2 下载Nagios和Nagios-plugin源码2.3 编译安装3. 部署Nagios-pl ...

  10. JDK12的安装搭建

    JDK12的安装搭建 一.JDK下载 ​ 1.JDK官网下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk12-down ...