【VictoriaMetrics源码阅读】vm中仿照RoaringBitmap的实现:uint64set
作者:张富春(ahfuzhang),转载时请注明作者和引用链接,谢谢!
正文
VictoriaMetrics中使用uint64类型来表示一个MetricID,且MetricID是递增的。
因此有这些一些需求:
- 需要缓存某一类metricID的集合,例如某个MetricQL的查询结果对应很多个MetricID;
- 需要对多个metricID的集合取交集和并集等操作。
并且:
- 占用的内存要尽可能的小
- 要避免大量的小对象,否则会对GC造成很大压力
- 插入、检查是否存在某个ID、并集计算、交集计算等要尽可能的快
VictoriaMetrics-1.72.0-cluster/lib/uint64set/uint64set.go 这里的代码很好的满足了上述需求。
下面我来分析它的实现原理。

1.结构
- 整个uint64按位分成多个部分,每个部分分别采用各自的插入和查找策略。相当于分级存储。
- 高32位先建一个桶
- 桶的个数动态增加
- metricID是递增的,因此在这样的业务场景下,高32位通常是0
- 高16位再建一个存储桶,这里的策略与上面相似。
- 桶的个数动态的增加
- 通常桶内的值是顺序增加的,插入过程只能顺序查找
- 在做集合计算的阶段,可以先对桶排序。
- 低16位的处理稍稍复杂一些:
- 当元素个数在56个以内时,直接在一个uint16的数组里顺序追加和顺序搜索
- 当元素超过56个时,建立一个1024个元素的数组,数组的元素是uint64类型
- uint64类型一共64个位,用每个位来代表0-63的某个值。相比用64个uint8来存储,空间节省了8倍。
2.插入过程
- 先确定高32位的分桶(如果没有就新增这个分桶)
- 在32位的分桶上,再确定高16位的分桶(如果没有就新增这个分桶)
- 在16位的分桶上,检查是否在56个元素以内
- 56个元素以内,直接在[]uint8数组上追加
- 超过56个元素,创建1024个元素的uint64数组,并把56个元素添加进去
- 16位的分桶上,通过前10位值作为下标,确定uint64数组的位置
- 把低6位的值,转换为一个uint64上的mask(值为N就把第N位置1),然后与上一步确定的uint64取bit or运算
3.查找过程
- 先确定高32位的分桶
- 再确定高16位的分桶
- 如果不存在1024个元素的分桶,就在56个元素的数组里面顺序查找
- 如果存在1024个元素的分桶,根据高10位获得下标
- 根据低6位,看uint64中对应的位是否是1
4.交集运算过程
- 先对a,b两个集合的32位分桶进行排序
- 依次偏移a,b两个集合32位分桶的下标,直到分桶值对齐
- 通过分桶的匹配,可以快速淘汰大量的值
- 32位分桶的值相等后,继续比较高16位的分桶。比较方法与上面相同。
- 低16位的值,比较1024个元素的数组。两个uint64做bit and运算,即可完成取交集。
5.总结
- uint64set类,首先考虑了业务场景。在绝大多数高32位都相同的大量数据的情况下,能够取得很好的效果。
- 相反:如果是大量随机的uint64值,这里的方法不见得会更好
- 相比map而言,插入和查找做不到O(1)的性能,但是分段查找也不会太差
- 相比map而言,内存上的好处非常多:
- 数据的扩容方便且快速,map可能需要多次扩容+rehash才行
- 更加节约内存
- 对GC的压力很小
- 对并集、交集等集合操作,分桶能够快速避开不合适的数据的比较,性能极高。
如果想看具体的源码的注释,请移步我上传的VM注释版的源码。
希望对你有用,have fun
【VictoriaMetrics源码阅读】vm中仿照RoaringBitmap的实现:uint64set的更多相关文章
- JDK源码阅读-DirectByteBuffer
本文转载自JDK源码阅读-DirectByteBuffer 导语 在文章JDK源码阅读-ByteBuffer中,我们学习了ByteBuffer的设计.但是他是一个抽象类,真正的实现分为两类:HeapB ...
- boost.asio源码阅读(2) - task_io_service
1.0 task_io_service 在boost.asio源码阅读(1)中,代码已经查看到task_io_service中. 具体的操作调用void task_io_service::init_t ...
- 源码阅读笔记 - 1 MSVC2015中的std::sort
大约寒假开始的时候我就已经把std::sort的源码阅读完毕并理解其中的做法了,到了寒假结尾,姑且把它写出来 这是我的第一篇源码阅读笔记,以后会发更多的,包括算法和库实现,源码会按照我自己的代码风格格 ...
- SpringMVC源码阅读:Controller中参数解析
1.前言 SpringMVC是目前J2EE平台的主流Web框架,不熟悉的园友可以看SpringMVC源码阅读入门,它交代了SpringMVC的基础知识和源码阅读的技巧 本文将通过源码(基于Spring ...
- caffe-windows中classification.cpp的源码阅读
caffe-windows中classification.cpp的源码阅读 命令格式: usage: classification string(模型描述文件net.prototxt) string( ...
- caffe中batch norm源码阅读
1. batch norm 输入batch norm层的数据为[N, C, H, W], 该层计算得到均值为C个,方差为C个,输出数据为[N, C, H, W]. <1> 形象点说,均值的 ...
- go 中 select 源码阅读
深入了解下 go 中的 select 前言 1.栗子一 2.栗子二 3.栗子三 看下源码实现 1.不存在 case 2.select 中仅存在一个 case 3.select 中存在两个 case,其 ...
- 转-OpenJDK源码阅读导航跟编译
OpenJDK源码阅读导航 OpenJDK源码阅读导航 博客分类: Virtual Machine HotSpot VM Java OpenJDK openjdk 这是链接帖.主体内容都在各链接中. ...
- openjdk源码阅读导航
转自:http://rednaxelafx.iteye.com/blog/1549577 这是链接帖.主体内容都在各链接中. 怕放草稿箱里过会儿又坑掉了,总之先发出来再说…回头再慢慢补充内容. 先把I ...
- avalon源码阅读(1)
来源 写angularJS源码阅读系列的时候,写的太垃圾了. 一个月后看,真心不忍直视,以后有机会的话得重写. 这次写avalonJS,希望能在代码架构层面多些一点,少上源码.多写思路. avalon ...
随机推荐
- 一文了解如何使用移动应用安全组件Soot和Flowdroid
摘要:移动应用安全检测,soot.flowdroid分别作为静态分析.污点分析主要工具,能我们能够快速高效的进行检测分析.本文主要介绍两个工具的基本操作及相应的使用场景 本文分享自华为云社区<移 ...
- ios安全加固 ios 加固方案
目录 一.iOS加固保护原理 1.字符串混淆 2.类名.方法名混淆 3.程序结构混淆加密 4.反调试.反注入等一些主动保护策略 二 代码混淆步骤 1. 选择要混淆保护的ipa文件 2. 选择要混淆 ...
- 大数据-业务数据采集-FlinkCDC DebeziumSourceFunction via the 'serverTimezone' configuration property
Caused by: org.apache.kafka.connect.errors.ConnectException: Error reading MySQL variables: The serv ...
- Python中节省内存的方法之二:弱引用weakref
弱引用和引用计数息息相关,在介绍弱引用之前首先简单介绍一下引用计数. 引用计数 Python语言有垃圾自动回收机制,所谓垃圾就是没有被引用的对象.垃圾回收主要使用引用计数来标记清除. 引用计数:pyt ...
- 【Docker】基础原理
基础原理 基础流程 Docker镜像讲解 Docker容器讲解 创建容器的两种方式 容器创建命令详解
- 理解CAP理论
1. 理论什么是CAP? cap定理,它的提出是对于一个分布式系统得出的一个观点,是不能同时满足下面三点 一致性 可用性 分区容忍性 CAP理论认为,分布式系统最多只能同时满足其中的两个特性,而无法同 ...
- 2023 中国 Serverless 用户调查,邀您填写!
当前云计算已成为数字时代的基础设施,支撑众多企业进行数字化转型升级.随着企业上云的范围更加广泛,国内云计算正在迈向云原生时代.Serverless技术因其以应用为中心.屏蔽底层复杂逻辑,灵活扩展,按需 ...
- FZU 2232
***题意:求最大匹配是否为n 今天突然想起来吧模板改一下,然而自己得想法不对,WA了有十多次吧,看了一下题解,不需要改,套上模板就行*** #include<stdio.h> #incl ...
- git仓库之gogs安装(docker版/二进制版)
二进制安装gogs tar zxf gogs_0.11.91_linux_amd64.tar.gz -C /data/gogs chown -R www.www /data/gogs su - www ...
- 2023-SWPU NSS秋季招新赛(校外赛道)Misc—我要成为原神高手WP
1.题目信息 我是神里绫华的狗!!! 2.解题方法 有个genshin.h文件夹,打开看看发现里面是一堆文件夹0 1A 1A0等等,而且每个文件夹里面都有文件,0 1A 1A0...看着很眼熟,我们用 ...
