Mocha MemoryBufferQueue 设计概述
前言
Mocha 是一个基于 .NET 开发的 APM 系统,同时提供可伸缩的可观测性数据分析和存储平台。
更多关于 Mocha 的介绍,可以参考 https://www.cnblogs.com/eventhorizon/p/17979677
Mocha 会需要收集大量的数据,为处理这些数据,我们需要有一个缓冲区。初期我们实现了一个基于内存的缓冲区,下文称之为 MemoryBufferQueue。
Buffer 模块的代码地址:
https://github.com/dotnetcore/mocha/tree/main/src/Mocha.Core/Buffer
本文介绍的版本是 v0.1.0,后续版本可能会有变化。
MemoryBufferQueue 功能概述
MemoryBufferQueue 将数据缓冲到内存中,消费者可以从队列中获取数据,当队列中无数据时,消费者会异步等待数据到来。
MemoryBufferQueue 提供了以下功能:
- 支持创建多个 Topic,每个 Topic 都是一个独立的队列。
- 支持创建多个 Consumer Group,每个 Consumer Group 的消费进度都是独立的。支持多个 Consumer Group 并发消费同一个 Topic。
- 支持同一个 Consumer Group 创建多个 Consumer,以负载均衡的方式消费数据。
- 支持数据的批量消费,可以一次性获取多条数据。
- 支持重试机制,当消费者处理数据失败时,可以选择不确认消费,这样数据会被重新消费。
需要注意的是,当前版本出于简化实现的考虑,暂不支持消费者的动态扩容和缩容,需要在创建消费者时指定消费者数量。
Buffer 模块 API 设计
MemoryBufferQueue 的出发点的是在项目初期提供一个性能足够高的内存缓存队列。后期随着项目的发展,我们可能会将其替换为别的实现,比如支持持久化的队列。
为了解耦,Buffer 模块使用 Interface 进行了抽象。
public interface IBufferQueue
{
IBufferProducer<T> CreateProducer<T>(string topicName);
IBufferConsumer<T> CreateConsumer<T>(BufferConsumerOptions options);
IEnumerable<IBufferConsumer<T>> CreateConsumers<T>(BufferConsumerOptions options, int consumerNumber);
}
internal interface IBufferQueue<T>
{
string TopicName { get; }
IBufferProducer<T> CreateProducer();
IBufferConsumer<T> CreateConsumer(BufferConsumerOptions options);
IEnumerable<IBufferConsumer<T>> CreateConsumers(BufferConsumerOptions options, int consumerNumber);
}
public interface IBufferProducer<in T>
{
string TopicName { get; }
ValueTask ProduceAsync(T item);
}
public interface IBufferConsumer<out T>
{
string TopicName { get; }
string GroupName { get; }
IAsyncEnumerable<IEnumerable<T>> ConsumeAsync(CancellationToken cancellationToken = default);
ValueTask CommitAsync();
}
public class BufferConsumerOptions
{
public required string TopicName { get; init; }
public required string GroupName { get; init; }
public bool AutoCommit { get; init; }
public int BatchSize { get; init; } = 100;
}
数据通过 Producer 写入 BufferQueue,由 Consumer 进行消费。
我们对 BufferQueue 有以下的要求:
同一个数据类型 下的 不同 Topic 的 BufferQueue 互不干扰。
同一个 Topic 下的 不同数据类型 的 BufferQueue 互不干扰。

因此我们设计了两个层级的接口:
IBufferQueue:根据 TopicName 和 类型参数 T 将请求转发给具体的 IBufferQueue<T> 实现(借助 KeyedService 实现),其中参数 T 代表 Buffer 所承载的数据实体的类型。
IBufferQueue<T>:具体的 BufferQueue 实现,负责管理 Topic 下的数据。属于 Buffer 模块的内部实现,不对外暴露。

Buffer 模块提供了通过 ServiceCollection 进行注册的扩展方法:
public static class BufferServiceCollectionExtensions
{
public static IServiceCollection AddBuffer(
this IServiceCollection services,
Action<BufferOptionsBuilder> configure)
{
services.AddSingleton<IBufferQueue, BufferQueue>();
configure(new BufferOptionsBuilder(services));
return services;
}
}
MemoryBufferQueue 模块通过提供 BufferOptionsBuilder 来进行配置:
public static class BufferOptionsBuilderExtensions
{
public static BufferOptionsBuilder UseMemory(
this BufferOptionsBuilder builder,
Action<MemoryBufferOptions> configure)
{
var options = new MemoryBufferOptions(builder.Services);
configure(options);
return builder;
}
}
下面是配置和使用 MemoryBufferQueue 的示例:
var services = new ServiceCollection();
services.AddBuffer(options =>
{
options.UseMemory(bufferOptions =>
{
bufferOptions.AddTopic<MochaSpan>("otlp-span", Environment.ProcessorCount);
});
});
var provider = services.BuildServiceProvider();
var bufferQueue = provider.GetRequiredService<IBufferQueue>();
var producer = bufferQueue.CreateProducer<MochaSpan>("otlp-span");
var consumers = bufferQueue.CreateConsumers<MochaSpan>(new BufferConsumerOptions
{
TopicName = "otlp-span",
GroupName = "test",
AutoCommit = true, // 配置为 false 时,需要手动调用 CommitAsync 方法
BatchSize = 100
}, 2);
var consumerTasks = consumers.Select(async consumer =>
{
await foreach (var batch in consumer.ConsumeAsync())
{
foreach (var item in batch)
{
Console.WriteLine(item);
}
// 如果 AutoCommit 为 false,需要手动调用 CommitAsync 方法
// await consumer.CommitAsync();
}
});
Task.Run(async () =>
{
for (int i = 0; i < 1000; i++)
{
await producer.ProduceAsync(new MochaSpan());
}
});
await Task.WhenAll(consumerTasks);
MemoryBufferQueue 的设计
Partition 的设计
为了保证消费速度,MemoryBufferQueue 将数据划分为多个 Partition,每个 Partition 都是一个独立的队列,每个 Partition 都有一个对应的消费者线程。
Producer 以轮询的方式往每个 Partition 中写入数据。
Consumer 最多不允许超过 Partition 的数量,Partition 按平均分配到组内每个 Customer 上。
当一个 Consumer 被分配了多个 Partition 时,以轮训的方式进行消费。
每个 Partition 上会记录不同消费组的消费进度,不同组之间的消费进度互不干扰。

对并发的支持
Producer 支持并发写入。
Consumer 消费时是绑定 Partition 的,为保证能正确管理 Partition 的消费进度,Consumer 不支持并发消费。
如果要增加消费速度,需创建多个 Consumer。
Partition 的动态扩容
Partition 的基本组成单元是 Segment,Segment 代表保存数据的数组,多个 Segment 通过链表的形式组合成一个 Partition。
当一个 Segment 写满后,通过在其后面追加一个 Segment 实现扩容。
Segment 中用于保存数据的数组的每一个元素称为 Slot,每个 Slot 都有一个Partition 内唯一的自增 Offset。

Segment 的回收机制
每次在 Partition 中新增 Segment 时,会从头判断此前的 Segment 是否已经被所有消费组消费完,回收最后一个消费完的 Segment 作为新的 Segment 追加到 Partition 末尾使用。

欢迎关注个人技术公众号

Mocha MemoryBufferQueue 设计概述的更多相关文章
- Android设计 - 图标设计概述(Iconography)
2014-10-30 张云飞VIR 翻译自:https://developer.android.com/design/style/iconography.html Iconography 图标设计概述 ...
- HTML&CSS精选笔记_HTML与CSS网页设计概述
HTML与CSS网页设计概述 Web基本概念 认识网页 网页主要由文字.图像和超链接等元素构成.当然,除了这些元素,网页中还可以包含音频.视频以及Flash等. 名词解释 Internet网络 就是通 ...
- Axure学习笔记1--原型设计概述
Axure原型 1.原型的出现 -软件功能复杂,用户需求多 -挖掘用户的实际需求 -项目组之间降低沟通成本 2.类型: [草图原型]描述产品大概需求,记录瞬间灵感 [低保真原型]展示系统的大致结构和基 ...
- Power Gating的设计(概述)
Leakage power随着CMOS电路工艺进程,功耗越来越大. Power Domain的开关一般通过硬件中的timer和系统层次的功耗管理软件来进行控制,需要在一下几方面做trade-off: ...
- UML+模式设计概述
转自于:http://blog.csdn.net/rexuefengye/article/details/13020225 工程学:工程庞大到一定程度必须是用工程学方法,好比直接用水泥沙子建设实用的摩 ...
- Mysql数据库(一)数据库设计概述
1.数据库的体系结构 1.1 数据库系统的三级模式结构是指模式.外模式和内模式. 1.2 三级模式之间的映射分为外模式/模式映射和模式/内模式映射. 2.E-R图也称“实体-关系图”,用于描述现实世界 ...
- Spring MVC 设计概述
MVC设计的根本原因在于解耦各个模块 Spring MVC的架构 对于持久层而言,随着软件发展,迁移数据库的可能性很小,所以在大部分情况下都用不到Hibernate的HQL来满足移植数据库的要求. ...
- DDD领域驱动设计-概述-Ⅰ
如果我看得更远,那是因为我站在巨人的肩膀上.(If I have seen further it is by standing on ye shoulder of Giants.) ...
- Databend 设计概述 | 白皮书
Databend 是一个开源的.完全面向云架构的新式数仓,它提供快速的弹性扩展能力,并结合云的弹性.简单性和低成本,使 Data Cloud 构建变得更加容易. Databend 把数据存储在像 AW ...
- 现代JVM内存管理方法的发展历程,GC的实现及相关设计概述(转)
JVM区域总体分两类,heap区和非heap区.heap区又分:Eden Space(伊甸园).Survivor Space(幸存者区).Tenured Gen(老年代-养老区). 非heap区又分: ...
随机推荐
- 生成学习全景:从基础理论到GANs技术实战
本文全面探讨了生成学习的理论与实践,包括对生成学习与判别学习的比较.详细解析GANs.VAEs及自回归模型的工作原理与结构,并通过实战案例展示了GAN模型在PyTorch中的实现. 关注TechLea ...
- Python报错:TypeError: 'dict_keys' object does not support indexing(机器学习实战treePlotter代码)解决方案
错误信息: 学习<机器学习实战>这本书时,按照书上的代码运行,产生了错误,但是在代码中没有错误提示,产生错误的代码如下: firstStr = myTree.keys()[0] print ...
- Codeforces Round #719 (Div. 3) A~E题解
51鸽了几天,有几场比赛的题解还没发布,今天晚上会补上的 1520A. Do Not Be Distracted! 问题分析 模拟,如果存在已经出现的连续字母段则输出NO using ll = lon ...
- L1-046 整除光棍 (20分)
问题描述 这里所谓的"光棍",并不是指单身汪啦~ 说的是全部由1组成的数字,比如1.11.111.1111等.传说任何一个光棍都能被一个不以5结尾的奇数整除.比如,111111就可 ...
- L2-024 部落 (25 point(s)) (并查集)
补题链接:Here 在一个社区里,每个人都有自己的小圈子,还可能同时属于很多不同的朋友圈.我们认为朋友的朋友都算在一个部落里,于是要请你统计一下,在一个给定社区中,到底有多少个互不相交的部落?并且检查 ...
- AIO异步通信。BIO同步阻塞式IO, NIO同步非阻塞通信。
IO 什么是IO? 它是指计算机与外部世界或者一个程序与计算机的其余部分的之间的接口.它对于任何计算机系统都非常关键,因而所有 I/O 的主体实际上是内置在操作系统中的.单独的程序一般是让系统为它们完 ...
- ios ipa包上传需要什么工具
目录 ios ipa包上传需要什么工具 前言 一.IPA包的原理 二.IPA包上传的步骤 1.注册开发者账号 2.apk软件制作工具创建应用程序 3.构建应用程序 4.生成证书和配置文件 5.打包 ...
- Kubernetes: client-go 源码剖析(二)
kubernetes:client-go 系列文章: Kubernetes: client-go 源码剖析(一) Kubernetes: client-go 源码剖析(二) 2.3 运行 inform ...
- 线性代数 · 矩阵 · Matlab | 满秩分解代码实现
背景 - 矩阵的满秩分解: 若 A 为 m×n 矩阵,rank(A) = r,则存在 F m×r.G r×n,使得 A = FG. 其中,F 列满秩,G 行满秩. 求满秩分解的方法: 得到 A 的行最 ...
- python 基础 | 实现微秒级计时
搬运一个计时代码: import datetime s = datetime.datetime.now() # 开始 # do something e = datetime.datetime.now( ...