为了防止无良网站的爬虫抓取文章,特此标识,转载请注明文章出处。LaplaceDemon/ShiJiaqi。

http://www.cnblogs.com/shijiaqi1066/p/5855064.html

本文使用LevelDB,HBase这类列式存KV储数据来构建时间序列数据库。

时间序列数据的特征

经典物理世界,若需要进行测量,则首先需要标注出来。所以首先物体需要有一个ObjectName。

物体有一些静态属性。静态属性不随时间发送变化。时间序列数据一般不关注静态属性。

还有一些动态属性。动态属性的值会随时间发送变化,一般的动态属性被称为指标。指标的名称即metricName。

基础表

Meta

物体与指标都具有名称。而名称字符串应该与一个无符号整数映射起来。即存储ObjectName与ObjectId的对应关系。

Data

使用SSTable存储KV型数据。支持Scan查询。存储Key与Value的关系。

时间序列数据库的查询需求

在不考虑聚合问题的前提下,一般的时间序列数据的查询有以下需求:

查询一段时间([timestamp0,timestam1])内某个object的所有metric的值。   ==> 抽象成函数即  query( objectId , timestamp0 , timestamp1 )

查询一段时间([timestamp0,timestam1])内某个object的某个metric的值。  ==> 抽象成函数即  query( objectId , metricId  , timestamp0 , timestamp1 )

查询一段时间内所有object的某个metric的值。 == > 抽象成函数即  query( metricId , timestamp0 , timestamp1 )

查询一段时间内所有object的所有metric的值。 == > 抽象成函数即  query( timestamp0 , timestamp1 )

一般的 query( objectId , metricId  , timestamp0 , timestamp1 ) 这种查询更为常见。

Key的构造

方法1:

timestamp | objectId | metricId

数据按时间顺序排序。是一种比较合理的构造方法,适合object较少的情况。

方法2:

timestamp | metricId | objectId

与方法1的应用场景一致。适合object较少的情况。且适合指定metricId的查询。

方法3:

objectId | timestamp | metricId

可以方便的查询,查询一段时间([timestamp0,timestam1])内某个object的所有指标值。即:query( objectId , timestamp0 , timestam1 )

但对一段时间([timestamp0,timestam1])内某个object的某个metric值,性能会稍显不足。这是因为在查询过程中需要过滤掉非指定metricId的指标。

比如一个object有30个metric,当前只需要查询object的metric1。则需要跳过{metric2 , metric3 , ...... , metric30 }的值。效率明显降低了。

方法4:

objectId | metricId | timestamp

可以方便查询一段时间([timestamp0,timestam1])内某个object的某个metric值。

但是如果需要查询一段时间([timestamp0,timestam1])内某个object的所有指标值,就会有所困难。

方法5:

改进方法4:在Meta中记录每个objectId与metricId的映射关系。即需要增加一张Mapping表。

查询一段时间([timestamp0,timestam1])内某个object的所有指标值,需要先从Mapping表中查询objectId具有的metricIds集合:

objectId  ==> {metric1,metric2,metric3,metric4,...metricN}

然后按照对每一个metricId进行查询:

query( objectId , metric1  , [timestamp0,timestam1] )

query( objectId , metric2  , [timestamp0,timestam1] )

query( objectId , metric3  , [timestamp0,timestam1] )

......

query( objectId , metricN  , [timestamp0,timestam1] )

查询后,把各个merge起来。

数值存储

数据存储于磁盘上都是以字节数组存储的。当读出来时需要知道存储时的数据格式。所以,需要把存储时的值格式记录下来。

静态数值类型

存储前,定义存储格式,并记录下来。存储时按照定义的存储格式进行序列化。类似于MySQL的使用方式。

动态数值类型

在数值序列化成byte[]后,用1个byte标记数值类型。并将整个byte添加到byte[]之前。合一起后存储下来。

即: typeByte  | valueBytes

读取数值时,按照第一个typeByte的值来解析后面的byte[]。

动态数值类型更加灵活,但每一条数据都需要多存储1个byte的额外信息。对于静态数值类型,会造成存储空间的浪费。

设计一个完整的时间序列数据库

元信息层

ObjectMeta表

objectName-objectId

MetricMeta表

metricName-metricId

ObjectMetricMeta表

objectId-metricId

静态层存储

业务层存储(不存在于时间序列数据库中)

staitcData

objectId-metricId-value

动态属性值存储

objectId|metricId|timestamp <--> (valueType)  value

为了防止无良网站的爬虫抓取文章,特此标识,转载请注明文章出处。LaplaceDemon/ShiJiaqi。

http://www.cnblogs.com/shijiaqi1066/p/5855064.html

利用可排序Key-Value DB构建时间序列数据库(简论)的更多相关文章

  1. POJ - 3249 Test for Job (在DAG图利用拓扑排序中求最长路)

    (点击此处查看原题) 题意 给出一个有n个结点,m条边的DAG图,每个点都有权值,每条路径(注意不是边)的权值为其经过的结点的权值之和,每条路径总是从入度为0的点开始,直至出度为0的点,问所有路径中权 ...

  2. 时间序列数据库调研之InfluxDB

    基于 Go 语言开发,社区非常活跃,项目更新速度很快,日新月异,关注度高 测试版本 1.0.0_beta2-1 安装部署 wget https://dl.influxdata.com/influxdb ...

  3. [转帖]时间序列数据库 (TSDB)

    时间序列数据库 (TSDB) https://www.jianshu.com/p/31afb8492eff 0.3392019.01.28 10:51:33字数 5598阅读 4030 背景 2017 ...

  4. 时间序列数据库武斗大会之 KairosDB 篇

    [编者按] 刘斌,OneAPM后端研发工程师,拥有10多年编程经验,参与过大型金融.通信以及Android手机操作系的开发,熟悉Linux及后台开发技术.曾参与翻译过<第一本Docker书> ...

  5. 时间序列数据库——索引用ES、聚合分析时加载数据用什么?docvalues的列存储貌似更优优势一些

    加载 如何利用索引和主存储,是一种两难的选择. 选择不使用索引,只使用主存储:除非查询的字段就是主存储的排序字段,否则就需要顺序扫描整个主存储. 选择使用索引,然后用找到的row id去主存储加载数据 ...

  6. 时间序列数据库(TSDB)初识与选择

    时间序列数据库(TSDB)初识与选择 本文作者由 MageByte 团队的 「借来方向」编写,关注公众号 给你更多硬核技术 背景 这两年互联网行业掀着一股新风,总是听着各种高大上的新名词.大数据.人工 ...

  7. 时间序列数据库(TSDB)初识与选择(InfluxDB、OpenTSDB、Druid、Elasticsearch对比)

    背景 这两年互联网行业掀着一股新风,总是听着各种高大上的新名词.大数据.人工智能.物联网.机器学习.商业智能.智能预警啊等等. 以前的系统,做数据可视化,信息管理,流程控制.现在业务已经不仅仅满足于这 ...

  8. 为物联网而生:高性能时间序列数据库HiTSDB商业化首发!

    为什么80%的码农都做不了架构师?>>>   摘要: 近日,阿里云宣布高性能时间序列数据库 (High-Performance Time Series Database , 简称 H ...

  9. Akumuli时间序列数据库——列存储,LSM,MVCC

    Features Column-oriented time-series database. Log-structured append-only B+tree with multiversion c ...

随机推荐

  1. django时间的时区问题(转)

    add by zhj: 使用django时,如果设置USE_TZ=True,那django在数据库中存储的是0时区的时间:如果USE_TZ=False,那存储的是本地时间 原文:https://www ...

  2. JAVA四大域对象总结

    根据有作用范围由小到大: page(jsp有效)------>page域指的是pageContext. request(一次请求)--->request域request HttpServl ...

  3. 如何将文章列表用<li>分两列显示

    我们平时用ul或ol标签来罗列文章列表时默认是一列,为了美观起见,想把它们两列显示要如何操作呢?怎么用css定义它们? 其实相对比较简单,用几行css样式定义一下就够了,可以用div + css来控制 ...

  4. InnoDB缓冲池预加载在MySQL 5.7中的正确打开方式

    InnoDB缓冲池预加载在MySQL 5.7中的正确打开方式 https://mp.weixin.qq.com/s/HGa_90XvC22anabiBF8AbQ 在这篇文章里,我将讨论在MySQL 5 ...

  5. Python3学习之路~4.4 软件目录结构规范

    为什么要设计好目录结构? 可读性高: 不熟悉这个项目的代码的人,一眼就能看懂目录结构,知道程序启动脚本是哪个,测试目录在哪儿,配置文件在哪儿等等.从而非常快速的了解这个项目. 可维护性高: 定义好组织 ...

  6. kafka3 本地目录结构以及在在zk上的znode

    一 kafka本地目录结构 [root@hadoop ~]# cd /tmp/kafka-logs1 [root@hadoop kafka-logs1]# find . . ./.lock ./rec ...

  7. [QGLViewer]3D场景鼠标点击位置

    重载鼠标事件: void AxMapControl::mousePressEvent(QMouseEvent* e) { switch(currentTool) { case AX_DRAW_DIRE ...

  8. drf解析器

    1.简介 作用:将传过来的数据,解析成字典 2.使用 分为局部使用和全局使用 局部使用,什么都不写,默认就是 parser_classes = [JSONParser,FormParser] from ...

  9. abap事件。

    1:https://www.w3cschool.cn/sap_abap/sap_abap_object_events.html *&------------------------------ ...

  10. MYSQL: set names utf8是什么意思?

    set names utf8 是用于设置编码,可以再在建数据库的时候设置,也可以在创建表的时候设置,或只是对部分字段进行设置,而且在设置编码的时候,这些地方最好是一致的,这样能最大程度上避免数据记录出 ...