OpenTSDB介绍

OpenTSDB 2.0, the scalable, distributed time series database可扩展、分布式时间序列数据库

1、背景

一些老的监控系统，它常常会出现这样的问题：

1）中心化数据存储进而导致单点故障。

2）有限的存储空间。

3）数据会因为时间问题而变得不准确。

4）不易于定制图形。

5）不能扩展采集数据点到100亿级别。

6）不能扩展metrics到K级别。

7）不支持秒级别的数据。

OpenTSDB解决上面的问题：

1、它用hbase存储所有的时序（无须采样）来构建一个分布式、可伸缩的时间序列数据库。

2、它支持秒级数据采集所有metrics，支持永久存储，可以做容量规划，并很容易的接入到现有的报警系统里。

3、OpenTSDB可以从大规模的集群（包括集群中的网络设备、操作系统、应用程序）中获取相应的metrics并进行存储、索引以及服务

从而使得这些数据更容易让人理解，如web化，图形化等。

对于运维工程师而言，OpenTSDB可以获取基础设施和服务的实时状态信息，展示集群的各种软硬件错误，性能变化以及性能瓶颈。

对于管理者而言，OpenTSDB可以衡量系统的SLA，理解复杂系统间的相互作用，展示资源消耗情况。集群的整体作业情况，可以用以辅助预算和集群资源协调。

对于开发者而言，OpenTSDB可以展示集群的主要性能瓶颈，经常出现的错误，从而可以着力重点解决重要问题。

2、架构Review

openTSDB使用hbase作为存储中心，它无须采样，可以完整的收集和存储上亿的数据点，支持秒级别的数据监控，得益于hbase的分布式列式存储，hbase可以灵活的支持metrics的增加，可以支持上万机器和上亿数据点的采集。

在openTSDB中，TSD是hbase对外通信的daemon程序，没有master/slave之分，也没有共享状态，因此利用这点和hbase集群的特点就可以消除单点。用户可以通过telnet或者http协议直接访问TSD接口，也可以通过rpc访问TSD。每一个需要获取metrics的Servers都需要设置一个Collector用来收集时间序列数据。这个Collector就是你收集数据的脚本。

图1、openTSDB的数据流图

如果想快速地展示mysql中在一段时间内执行delete子句的数量，慢查询的数量，创建的临时文件数量以及99%的延迟数量等等。OpenTSDB则可以非常容易存储和处理百万级别以上的数据点，并能实时动态的生成对应的图，如图2.

图2、OpenTSDB用例图

3、在hbase中存储时间序列

OpenTSDB使用async hbase ,这是个完全异步、非阻塞、线程安全、HBase api，使用更少的线程、锁以及内存可以提供更高的吞吐量，特别对于大量的写操作。

图3为读写流程

黑色的线表示写入，红色的线表示读取，通过get请求，绿色的呢，Gnuplot是画图吗？？

在hbase中，表结构的设计对性能具有很大的影响，其中tsdb-uid表和tsdb表见表一和表二

tsdb-uid表

tsdb表

4、一淘的实例

OpenTSDB，一个数据点可以表示为：1）一个指标名称。2）UNIX时间戳。3）一个值(64位整数或双精度浮点值)。4）标识这个数据点的一组标记tags(键-值对)。

如tcollector中的dfstat.py脚本的输出：

df.bytes.total 1413306095 4159016960 mount=/ fstype=ext3

一淘的例子：

下面四个数据点都是采集的metrics为index.full_count，代表引擎索引doc数；标记tags为来自哪个domain(代表机房)，area和app代表应用，cluster代表索引表，partition代表列。Metrics和tags加起来就是一个时间序列。

index.full_count 1341069600 156866750 domain=domain_E area=1 app=jqb cluster=epid partition=partition_16384_32767

index.full_count 1341069600 155819640 domain=domain_E area=1 app=jqb cluster=epid partition=partition_32768_49151

index.full_size 1341069000 18561 domain=domain_D area=1 app=jqb cluster=b2c partition=partition_0_16383

index.full_size 1341069000 18554 domain=domain_D area=1 app=jqb cluster=b2c partition=partition_16384_32767

index.full_count 1341069200 11421051 domain=domain_G area=1 app=jqb cluster=b2c partition=partition_16384_32767

那如何收集这些数据呢，Etao在tcollector开源收集器的基础上，做第二次开发，见图5。

tcollector可以完成：

1）可以任意添加你的收集脚本程序，并收集所有数据。

2）完成发送数据到TSD的所有连接管理。

3）初始化一些状态，执行一些公共的部分，比如定时管理执行1min文件夹下面的脚本。

4）删除重复的数据。

5）支持很多种数据交换协议，提供良好的扩展性。

将etao-tcollector部署在所有机器上（可采用集中运维脚本进行远程部署，并可通过该系统远程控制收集器的启停）。etao-tcollector会将带时间和metrics的时间序列数据发送到tsd，之后的处理见第三节的图3，最后我们在Opentsdb提供的web UI上通过指定查询条件进行查询获取相应的图形用来对应用进行监控。

该etao-tcollector在一淘引擎中用来收集索引相关信息，引擎服务状态如延迟，日志等。

openTSDB采用hbase作为时序数据的存储中心，具有高扩展性，metrics添加相当灵活，且对数据可以无损的存储。可以很灵活的支持数据分析，图形显示以及一系列定制化操作，非常方便运维人员做运维监控。

5、参考资料

1、http://www.searchtb.com/2012/07/opentsdb-monitoring-system.html

2、http://opentsdb.net/docs/build/html/index.html

3、https://github.com/stumbleupon/asynchbase

4、https://github.com/stumbleupon/tcollector

OpenTSDB介绍的更多相关文章

OpenTSDB介绍——基于Hbase的分布式的，可伸缩的时间序列数据库，而Hbase本质是列存储
原文链接:http://www.jianshu.com/p/0bafd0168647 OpenTSDB介绍 1.1.OpenTSDB是什么?主要用途是什么? 官方文档这样描述:OpenTSDB is ...
OpenTSDB安装
时序数据库时序数据库全称为时间序列数据库.主要用于处理带时间标签(按照时间的顺序变化,即时间序列化)的数据,带时间标签的数据也称为时间序列数据.时间序列数据主要由电力行业.化工行业.物联网行业等各类 ...
openTSDB（转）
1.OpenTSDB介绍 1.1.OpenTSDB是什么?主要用途是什么? 官方文档这样描述:OpenTSDB is a distributed, scalable Time Series Datab ...
Opentsdb简介（一）
原文:http://www.jianshu.com/p/0bafd0168647 1.OpenTSDB介绍 1.1.OpenTSDB是什么?主要用途是什么? 官方文档这样描述:OpenTSDB is ...
Opentsdb简介
1.OpenTSDB介绍 1.1.OpenTSDB是什么?主要用途是什么? 官方文档这样描述:OpenTSDB is a distributed, scalable Time Series Datab ...
#研发解决方案介绍#基于StatsD+Graphite的智能监控解决方案
郑昀基于李丹和刘奎的文档创建于2014/12/5 关键词:监控.dashboard.PHP.graphite.statsd.whisper.carbon.grafana.influxdb.Pyth ...
时序列数据库武斗大会之 OpenTSDB 篇
[编者按] 刘斌,OneAPM后端研发工程师,拥有10多年编程经验,参与过大型金融.通信以及Android手机操作系的开发,熟悉Linux及后台开发技术.曾参与翻译过<第一本Docker书> ...
kubernetes之监控Prometheus实战--prometheus介绍--获取监控（一）
Prometheus介绍 Prometheus是一个最初在SoundCloud上构建的开源监控系统 .它现在是一个独立的开源项目,为了强调这一点,并说明项目的治理结构,Prometheus 于2016 ...
Telegraf安装与介绍
Telegraf 是什么? Telegraf 是一个用 Go 编写的代理程序,是收集和报告指标和数据的代理.可收集系统和服务的统计数据,并写入到 InfluxDB 数据库.Telegraf 具有内存占 ...

随机推荐

HDU1081 最大字段和压缩数组
最大字段和题型,推荐做题顺序: HDU1003 HDU1024 HDU1081 zoj2975 zoj2067 #include<cstdio> #include< ...
AJAX学习前奏----JS基础加强
AJAX学习前奏----JS基础加强知识概要: 1.js类&属性&方法的定义 2.静态属性与方法 3.构造方法 4.原型的使用 5.Object对象直接加属性和方法 6.JSO ...
C# Async/await 异步多线程编程
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.N ...
Color Blender---在线渐变色带生成器
Color Blender是一个很有用的在线渐变色带生成器,它可以在两种颜色之间,自动生成过渡色,对网页设计师来说是一个不错的颜色调配工具. Color Blender的使用方法很简单,你只 ...
(转载)RESTful架构风格下的4大常见安全问题
转载自<RESTful架构风格下的4大常见安全问题>,作者:马伟伴随着RESTful架构风格的大量应用微服务架构的流行,一些本来难以察觉到的安全问题也逐渐开始显现出来.在我经历过的各种采 ...
将 C# 枚举反序列化为 JSON 字符串实践
一.定义枚举 public enum SiteTypeEnum { 中转部 = 1, 网点 = 2 } 还有 BooleanEnum 和 OptTypeEnum 这两个枚举,这里暂且省略了它们的定义. ...
【学习】js学习笔记---数组对象
一.属性 length 数组的大小.数组的length属性总是比数组中定义的最后一个元素的下标大一,设置属性length的值可以改变数组的大小.如果设置的值比它的当前值小,数组将被截断,其尾部的元素将 ...
【转载】CSS3 Transitions, Transforms和Animation使用简介与应用展示
文章转载自张鑫旭-鑫空间-鑫生活 http://www.zhangxinxu.com/wordpress/ 原文链接:http://www.zhangxinxu.com/wordpress/?p=1 ...
【解决方案】客户端请求数据较大时，nginx返回数据被截断
[问题描述]:客户端使用curl命令向nginx请求数据,当返回数据量较大时,数据被截断,客户端无法获取完整的数据. [问题原因]:nginx配置文件中包含了proxy_buffer_size.pro ...
（转）UML实践详细经典教程----用例图、顺序图、状态图、类图、包图、协作图
原文链接:http://dn.codegear.com/article/31863 面向对象的问题的处理的关键是建模问题.建模可以把在复杂世界的许多重要的细节给抽象出.许多建模工具封装了UML(也就是 ...