HBase 集群监控系统构建
HBase 集群监控系统构建
标签(空格分隔): Hbase
一, 集群为什么需要监控系统
总的来说是为了保证系统的稳定性,可靠性,可运维性。具体来说我认为有以下几点:
掌控集群的核心性能指标,了解集群的性能表现。
集群出现问题时及时报警,便于Hbase运维同学及时修复问题。
集群重要指标值异常时进行预警,将问题扼杀在摇篮中,不用等集群真正不可用时才采取行动。
当集群出现问题时,监控系统可以帮助我们更快的定位问题和解决问题。无监控,不运维。
二, 如何构建HBase集群监控系统
一般来说,大公司内部都有企业统一的监控报警系统,开源的有zabbix以及小米的Open-Falcon。对于HBase集群来讲,我们所要做的就是将我们关心的指标项发送到公司的监控系统,并配置相关的报警信息即可。所以问题现在转化为我们应该开发,采集并上报哪些HBase集群监控项
三,HBase 集群监控项采集
3.1 主机基本监控项
CPU,内存,磁盘,网络 主机4大 基本监控项,这4项机器监控保证我们运行我们HBase集群的机器是正常的。
3.2 JVM监控项
HBase集群涉及的系统HDFS,HBase,ZooKeeper都是用Java编写的,系统都是运行在JVM中,所以我们必须采集JVM相关的监控项,尤其是JVM的GC信息。GC信息在整个大数据生态圈中都是极为重要的监控指标。
3.3 HBase集群各系统存活监控项
HBase集群各个系统的进程是否存活是必须也是最基本的监控项。具体有hmaster;regionserver;namenode;datanode;journalnode;zkfc;zookeeper的存活监控。具体判断存活的方式我们可以去判断各系统相应的进程是否存在,也可以去判断各系统的web页面或者jmx页面是否正常。
3.4 HBase集群各系统JMX监控项
JMX全称是Java Management Extensions,用于用于Java程序扩展监控和管理项。而许多Hadoop系统都提供了丰富的JMX监控项,所以我们可以直接从HBase系统本身提供的JMX信息获取我们需要的监控项。HBase提供的JMX信息的web页面,地址就是 http://your_hmaster:60010/jmx,JMX web页面的数据格式是json格式。由于信息比较多,也提供了一个qry=name的方式获取具体某一项所需的数据,例如:http://namenode:50070/jmx?qry=hadoop:service=NameNode,name=NameNodeInfo只收集nameinfo相关的数据。 所以我们可以用多线程或多进程同时采集多个指标项,同时也要注意在每个线程处理的时候数据应该是异步的,否则同步可能导致某一个指标项采集阻塞, 使得之后的所有指标项在一个采集周期内无法正常返回数据。
下面是一个python利用进程池异步请求多个url的例子:
#!/usr/bin/env python
# encoding: utf-8
import urllib2
import multiprocessing as mp
results = []
def add_list(result):
results.append(result)
class PoolHelper(object):
def __call__(self, index, url):
return self.open_url(index, url)
def open_url(self, index, url):
try:
response = urllib2.urlopen(url, timeout = 10)
result = response.read()
except:
result = ''
return (index, result)
def pool_url(self, urls):
pool = mp.Pool()
for index, url in enumerate(urls):
pool.apply_async(self, args=(index, url,), callback=add_list)
pool.close()
pool.join()
return results
JMX的信息我们除了可以从web页面抓取外,也可以用Java 程序直接attach到目标进程直接获取JMX信息。
例如:
3.5 HBase集群web页面监控项
我们也可以从HBase的16010和16020的web页面直接抓取集群的一些汇总信息。具体实现方式可以使用正则匹配,python也可以直接使用BeautifulSoup获取页面上我们需要的信息,BeautifulSoup简单,易用,强大。
3.6 HBase集群特有监控项
3.6.1 HBCK监控
关于HBCK的具体含义可以参考:
3.6.2 HBase Replication监控
主要是用来确定开启Replication的HBase集群都正常同步,这一块为了便于被python调用,我们使用了JRuby开发,JRuby语法和Ruby一样,只不过可以直接调用Java API。
hbase shell>
status 'replcation'
也可以用hbase-client自带方法。
3.6.3 HBase 探针程序
探针程序就是为了确定整个集群状态健康,一般是建表,写数据,读数据,删数据,删表。探针监控在storm,hdfs,yarn等等组件都应该有完整的回路监控。
3.7 HBase集群 表粒度和Region粒度指标监控
因为HBase本身的JMX监控指标没有表粒度和Region粒度,所以我们需要二次开发。
一。利用HBase的observer类型的协处理器来统计基于表粒度的put,get,scan等请求信息,然后发送到HBase的Metric,最后再从jmx页面抓取监控项。
二。抓取所有Hbase regionserver metrics 然后进行汇总并写入到时序数据库。
3.8 HBase客户端监控
以上的监控项都是服务端的,我们也需要用户使用的HBase客户端也有监控,客户端监控也是HBase服务质量的一个体现。
HBase 集群监控系统构建的更多相关文章
- 集群监控系统Ganglia应用案例
集群监控系统Ganglia应用案例 --我们把集群系统投入生产环境后,这时就需要一套可视化的工具来监视集群系统,这将有助于我们迅速地了解机群的整体配置情况,准确地把握机群各个监控节点的信息,全面地察看 ...
- Hbase集群监控
Hbase集群监控 Hbase Jmx监控 监控每个regionServer的总请求数,readRequestsCount,writeRequestCount,region分裂,region合并,St ...
- vivo 容器集群监控系统架构与实践
vivo 互联网服务器团队-YuanPeng 一.概述 从容器技术的推广以及 Kubernetes成为容器调度管理领域的事实标准开始,云原生的理念和技术架构体系逐渐在生产环境中得到了越来越广泛的应用实 ...
- 【Ganglia】集群监控系统搭建
参考博客 www.cnblogs.com/atomicbomb/p/6726119.html 操作系统 centos7 机器两台 一. 配置软件环境 操作步骤: 使用yum安装方式安装所需基础依赖包 ...
- Zookeeper Monitor集群监控开发
随着线上越来越多的系统依赖Zookeeper集群.以至于Zookeeper集群的执行状况越来越重要.可是眼下还没有什么好用的Zookeeper集群监控系统(淘宝开源了一个Zookeeper监控系统,可 ...
- 基于开源软件构建高性能集群NAS系统,包括负载均衡(刘爱贵)
大数据时代的到来已经不可阻挡,面对数据的爆炸式增长,尤其是半结构化数据和非结构化数据,NoSQL存储系统和分布式文件系统成为了技术浪潮,得到了长足的发展.非结构化数据目前呈现更加快速的增长趋势,IDC ...
- 「从零单排HBase 10」HBase集群多租户实践
在HBase1.1.0发布之前,HBase同一集群上的用户.表都是平等的,大家平等共用集群资源.容易碰到两个问题: 一是某些业务较其他业务重要,需要在资源有限的情况下优先保证核心重要业务的正常运行 二 ...
- 基于docker快速搭建hbase集群
一.概述 HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文"Bigtable:一个结构化数据的分布式存储系统".就像Bigt ...
- 使用 Ansible 快速部署 HBase 集群
背景 出于数据安全的考虑,自研了一个低成本的时序数据存储系统,用于存储历史行情数据. 系统借鉴了 InfluxDB 的列存与压缩策略,并基于 HBase 实现了海量存储能力. 由于运维同事缺乏 Had ...
随机推荐
- React进阶篇学习
继续上一次基础篇, 分享一些关于React的进阶技术 React 进阶部分 ** context ** ** setState vs forceUpdate ** ** Mixins ** ** HO ...
- Linux的环境变量.bash_profile .bashrc profile文件
Shell变量有局部变量.环境变量之分.局部变量就是指在某个Shell中生效的变量,只在此次登录中有效.环境变量通常又称“全局变量”,虽然在Shell中变量默认就是全局的,但是为了让子Shall继承当 ...
- Codeforces1256E_Yet Another Division Into Teams
题意 n个人,每人有一个能力值a[i],要求分成多个队伍,每个队伍至少3个人,使得所有队伍的max(a[i])-min(a[i])之和最小. 分析 不会巧妙的dp,想了一天只想到了暴力的dp. 先排序 ...
- filebeat->redis->logstash->elasticsearch->kibana
整体流程 filebeat收集openresty应用日志传输到Redis集群中 Logstash从Redis集群中拉取数据,并传输到Elasticsearch集群 使用Kibana可视化索引 使用El ...
- [Vue] vuex-interview
1.你有使用过 vuex 的 module 吗?主要是在什么场景下使用? 把状态全部集中在状态树上,非常难以维护. 按模块分成多个 module,状态树延伸多个分支,模块的状态内聚,主枝干放全局共享状 ...
- 两张超级大表join优化
一个简单的两表关联,SQL跑了差不多一天一夜,这两个表都非常巨大,每个表都有几十个G,数据量每个表有20多亿,表的字段也特别多. 相信大家也知道SQL慢在哪里了,单个进程的PGA 是绝对放不下几十个G ...
- RabbitMQ入门教程(十七):消息队列的应用场景和常见的消息队列之间的比较
原文:RabbitMQ入门教程(十七):消息队列的应用场景和常见的消息队列之间的比较 分享一个朋友的人工智能教程.比较通俗易懂,风趣幽默,感兴趣的朋友可以去看看. 这是网上的一篇教程写的很好,不知原作 ...
- ExpressionToSQL
ExpressionToSql using System; using System.Collections.Generic; using System.Collections.ObjectModel ...
- 史上最全的大厂Mysql面试题在这里
1.MySQL的复制原理以及流程 基本原理流程,3个线程以及之间的关联: 主:binlog线程——记录下所有改变了数据库数据的语句,放进master上的binlog中: 从:io线程——在使用star ...
- Web Service Demo
有了Web Service的一些基础,具体如何实现,通过亲自写一个Demo来理解一下. 1.创建一个空的Web项目 2.在Web项目下ADD一个Web Service 3.在Web service中写 ...