一、M3DB介绍

M3DB是Uber开源的一款分布式时序数据库,已在Uber内部使用多年。M3DB有以下特性:

  • 分布式的时序数据库,可以水平扩展存储。
  • 支持Pormetheus的查询语言PromQL,Prometheus可以使用M3DB做为存储后端。
  • 支持多租户,不同租户(Namespace)提供不同的配置(数据失效时间、Bloack大小等)。
  • 支持数据聚合,可以对监控指标进行采样。

二、M3DB架构

组件:

  • M3Coordinator:协调器,用于协调上游系统(如 Prometheus 和 M3DB )之间的读写操作,相当于M3DB集群的网关。
  • M3Storage Node:存储节点,实际存储时序数据的组件,支持分片、多副本。
  • M3Seed Node(Etcd):种子节点,用于存储元数据,包括集群、Namespace等的配置。

三、M3DB原理

1.基本概念

  • Placement:用于管理M3DB的Topology(拓扑结构),包括IsolationGroup(所在区域)、Node(M3DB节点)、Shard(分片)、Replication(副本)等。
  • Namespace:逻辑上的多租户,每个租户可以设置数据过期时间、Block大小等配置。所有租户共享拓扑结构。
  • Block:M3DB存储数据的基本单位,将时间长短作为存储大小,例如设置Block大小为2h,则Block内存储2小时的数据。

2.存储引擎

2.1.数据压缩

  • M3DB使用M3TSZ算法对Block进行压缩。
  • M3TSZ基于Facebook Gorilla算法实现,是一种专用于压缩时序数据的算法,在Uber的生产使用中,一条时序数据会被压缩到1.45bytes,压缩比非常高。

2.2.内存结构

  • Database:M3DB进程,一个Database拥有多个Namespace。
  • Namespaces:租户,一个Namespace拥有多个Shard。
  • Shards:分片,一个Shard拥有多个Series,M3DB会根据Series id的Hash值分配Series到不同的Shards中。
  • Series:时序数据(Time series datapoints),数据结构包括id、tags、datapoint(timestamp、value)。Series包括Buffer和Cached blocks。
  • Buffer:缓冲区,M3DB会先将时序数据写入Buffer,Flush机制会将Buffer中的数据形成Block,并持久化到磁盘中。
  • Cached blocks:缓存,M3DB会缓存部分Block。

2.3.持久化存储结构

  • Commit log:日志文件,M3DB的所有写入操作会记录Commit log,用于M3DB启动时加载数据以及灾难恢复。M3DB写入Commit log时,会先写入内存中,由M3DB定时(可配置)批量刷新到磁盘中,所以可能会有Commit log丢失的情况。
  • Fileset files:数据文件组,M3DB的Flush机制会将Block写入到Fileset文件中。Fileset包含一组文件,包括Data file(数据文件)、Index file(索引文件)等等。

2.4.读写流程

1)写流程

写入M3DB的时序数据必须指定四个属性:Namespace, Series id, Timestamp, Value。

  • M3DB找到Namespace。
  • M3DB根据Series id计算Hash值,并找到Shard。
  • M3DB将时序数据写入Buffer,并记录Commit log。
  • M3DB的Flush机制会定期读取Buffer,并根据Timestamp将满足Block大小的时序数据形成Block(例如Block大小为2h,M3DB会将2小时的数据形成Block)。
  • Block形成后,M3DB会用M3TSZ算法压缩Block,压缩后将Block持久化到Fileset files。
2)读流程

读取M3DB的时序数据必须指定四个属性:Namespace,Series id,Timestamp范围。

  • M3DB找到Namespace。
  • M3DB根据Series id计算Hash值,并找到Shard。
  • M3DB会合并Timestamp范围内的Buffer、Block(Cached、Fileset)。
  • 合并完成后M3DB返回结果。

3.拓扑结构

3.1.Placement

用于管理M3DB的Topology(拓扑结构),M3DB可以使用Placement扩展移除M3DB节点。基本概念:

  • Replication:副本,M3DB可以保存同一份数据的多个副本,保证数据的高可用。
  • Shard:分片,一个分片包含一个或多个Replication。分片包含3个状态:
    • Initializing:初始化Shatd,此时无法对Shard进行操作。
    • Available:可用状态,此时可以正常操作Shard。
    • Leaving:移除中。
  • Node:M3DB节点,是以IP+Port来区分,一个实例包含一个Replication下的多个Shard。
  • IsolationGroup:Node所在的区域分组,保证同一分组下只保存一个Replication。

3.2.IsolationGroup分组

可以按照M3DB实例所在的区域进行分组,多个Replication可以分布到不同的IsolationGroup中,以此实现区域上的高可用:

  • 按Rack(机柜)分组:

  • 按Zone(机房)分组:

  • 按Region(地域)分组:

4.高可用

4.1.一致性等级(Consistency Levels)

M3DB提供连接集群的一致性等级以及读写一致性等级,当Client连接M3DB集群达不到连接一致性等级,则无法进行读写操作。

1)写一致性等级(Write consistency levels)
  • One:只需要写一个Node成功,就表示此次操作成功。
  • Majority:写大部分Node成功,此次操作才成功。计算Majority的公式为,n代表Node数量,majority=(n+1)/2, 例如n=3,majority=2,表示需要至少有写2个Node成功,此次操作才算成功。

  • All:写所有Node成功,此次操作才成功。

2)读一致性等级(Read consistency levels)
  • One:只需要读一个Node成功,就表示此次操作成功。
  • UnstrictMajority: 首先读大部分Node,如果成功,则此次操作成功,否则会尝试只读一个Node,成功则表示此次操作成功。
  • Majority: 读大部分Node成功,此次操作才成功。
  • All: 读所有Node成功,此次操作才成功。
3)连接一致性等级(Connect consistency levels)
  • Any: M3DB依次尝试按照All、Majority、One三个等级连接,只要有一个成功,则连接成功,否则连接失败。
  • None: M3DB始终认为连接是成功的。
  • One: 只需要连接一个Node成功,就认为连接成功。
  • Majority: 连接大部分Node成功,连接才成功。
  • All: 连接所有Node成功,连接才成功。
4)读写一致性组合
  • 读UnstrictMajority,写Majority,此为默认组合。例如Node数量为3,写必须满足至少有2个Node写成功,保证大部分Node的数据保持一致,读优先满足至少2个Node读成功,如果失败,则降级,满足一个Node读成功即可,保证集群出现大面积故障时,能尽量提供读服务。监控系统一般使用该组合。
  • 读Majority,写Majority。如果对数据一致性要求较高,写成功的数据,必须能读出来,可以使用该组合,当集群出现大面积故障时,M3DB则不提供读写服务。

4.2.灾难恢复

M3DB会在Bootstrap(启动节点)和Repair(后台修复机制)两个阶段恢复数据,并且提供两种恢复数据的方式:

  • 基于Commit log恢复数据。
  • 当Commit log丢失,从其他Replication中恢复,恢复时遵循一致性等级。

9 时序数据库M3DB架构与原理的更多相关文章

  1. 时序数据库技术体系 – 初识InfluxDB(原理)

    原贴地址:http://hbasefly.com/2017/12/08/influxdb-1/?qytefg=c4ft23 在上篇文章<时序数据库体系技术 – 时序数据存储模型设计>中笔者 ...

  2. 时序数据库 Apache-IoTDB 源码解析之系统架构(二)

    上一章聊到时序数据是什么样,物联网行业中的时序数据的特点:存量数据大.新增数据多(采集频率高.设备量多).详情请见: 时序数据库 Apache-IoTDB 源码解析之前言(一) 打一波广告,欢迎大家访 ...

  3. 深度解读MRS IoTDB时序数据库的整体架构设计与实现

    [本期推荐]华为云社区6月刊来了,新鲜出炉的Top10技术干货.重磅技术专题分享:还有毕业季闯关大挑战,华为云专家带你做好职业规划. 摘要:本文将会系统地为大家介绍MRS IoTDB的来龙去脉和功能特 ...

  4. MRS IoTDB时序数据库的总体架构设计与实现

    MRS IoTDB时序数据库的总体架构设计与实现 MRS IoTDB是华为FusionInsight MRS大数据套件最新推出的时序数据库产品,其领先的设计理念在时序数据库领域展现出越来越强大的竞争力 ...

  5. 时序数据库技术体系 – InfluxDB TSM存储引擎之TSMFile

    本文转自 http://hbasefly.com/2018/01/13/timeseries-database-4/ 为了更加系统的对时序数据库技术进行全方位解读,笔者打算再写一个系列专题(嘿嘿,好像 ...

  6. [转帖]时序数据库技术体系(二):初识InfluxDB

    时序数据库技术体系(二):初识InfluxDB https://sq.163yun.com/blog/article/169866295296581632 把生命浪费在美好事物上2018-06-26 ...

  7. Prometheus时序数据库-报警的计算

    Prometheus时序数据库-报警的计算 在前面的文章中,笔者详细的阐述了Prometheus的数据插入存储查询等过程.但作为一个监控神器,报警计算功能是必不可少的.自然的Prometheus也提供 ...

  8. 简析时序数据库 InfluxDB

    时序数据基础 时序数据特点 时序数据TimeSeries是一连串随时间推移而发生变化的相关事件. 以下图的 CPU 监控数据为例,同个 IP 的相关监控数据组成了一条时序数据,不相关数据则分布在不同的 ...

  9. Atitit.数据库存储引擎的原理与attilax 总结

    Atitit.数据库存储引擎的原理与attilax 总结 1. 存储引擎是什么1 2. 其它数据库系统(包括大多数商业选择)仅支持一种类型的数据存储2 3. 表的存储有三个文件:结构+数据+索引2 4 ...

  10. Atitit数据库层次架构表与知识点 attilax 总结

    Atitit数据库层次架构表与知识点 attilax 总结 第一阶段,大概理论(三五天 数据库的类型,网状,层次,树形数据库,kv数据库.Oodb Er模型   sql 并发控制与lock  Acid ...

随机推荐

  1. 使用pip或者手动安装第三方库出现“由于目标计算机积极拒绝,无法连接”错误的解决办法

    网上找了很多地方,都没找到怎么解决,之前用pip安装成功过,但是翻过墙后,pip安装第三方库的时候发现错误,如图:

  2. 时间加权平均价格算法(TWAP)和成交量平均算法(VWAP)在量化回测的应用

    为什么要引入TWAP和 VWAP? 为了评估策略的资金容量,我们对M.trade模块里买入点和卖出点这两个参数进行了更丰富的扩展,支持了策略能够按更丰富的算法交易价格(WAP)进行撮合. 如果资金是1 ...

  3. ifconfig详解

    linux下ifconfig命令详解 ifconfig 是一个用来查看.配置.启用或禁用网络接口的工具,这个工具极为常用的.可以用这个工具来临时性的配置网卡的IP地址.掩码.广播地址.网关等.也可以把 ...

  4. libGDX游戏开发之游戏纹理精灵切割(十六)

    libGDX游戏开发之游戏纹理精灵切割(十六) libGDX系列,游戏开发有unity3D巴拉巴拉的,为啥还用java开发?因为我是Java程序员emm-国内用libgdx比较少,多数情况需要去官网和 ...

  5. Java中单体应用锁的局限性&分布式锁

    互联网系统架构的演进 在互联网系统发展之初,系统比较简单,消耗资源小,用户访问量也比较少,我们只部署一个Tomcat应用就可以满足需求.系统架构图如下: 一个Tomcat可以看作是一个JVM进程,当大 ...

  6. WinForm如何将子控件插入FlowLayoutPanel开始位置

    需求描述 动态将控件插入到FlowLayoutPanel控件的开始位置 实现方案 将控件添加到FlowLayoutPanel的Controls集合中,默认插到末尾 使用SetChildIndex方法更 ...

  7. TextCNN和TextRNN:原理与实践

    1.TextCNN原理 CNN的核心点在于可以捕获信息的局部相关性,具体到文本分类任务中可以利用CNN来提取句子中类似N-Gram的关键信息. (1)一维卷积:使用不同尺寸的kernel_size来模 ...

  8. U2Net基于ModelArts Notbook的仿真实验

    摘要:U2Net是一个优秀的显著性目标检测算法,由Qin Xuebin等人发表在Pattern Recognition 2020期刊[Arxiv].U2Net名称的来源在于其网络结构由两层嵌套的Une ...

  9. 3 分钟看完 NVIDIA GPU 架构及演进

    近期随着 AI 市场的爆发式增长,作为 AI 背后技术的核心之一 GPU(图形处理器)的价格也水涨船高.GPU 在人工智能中发挥着巨大的重要,特别是在计算和数据处理方面.目前生产 GPU 主流厂商其实 ...

  10. OOALV 分割屏幕

    1功能说明 需要开发一个报表,分为上下两个部分,下边需要再分割为左右两个部分,点击上边部分的行,下边两个报表信息发生变化. 效果如下: 2代码实现 1.数据查询 分别查询MARA.MARC.MAKT三 ...