Golang 优化之路——bitset
写在前面
开发过程中会经常处理集合这种数据结构,简单点的处理方法都是使用内置的map实现。但是如果要应对大量数据,例如,存放大量电话号码,使用map占用内存大的问题就会凸显出来。内存占用高又会带来一些列的问题,这里就不展开说了。还有就是,大量数据存放于map,查找的哈希算法消耗也会很高。这时就该考虑对数据结构进行优化。之前浏览awesome-go时发现了一种叫bitset的数据结构,今天就介绍一下它。
bitset 简介
首先这是一个数据结构。从名字set不难发现,这是一个集合的数据结构。bit的含义也比较好懂,通过set是通过bit实现的。如果你需要一个集合,正好集合内的元素都是正整数,那么用这个就没错了。
注:biset 有时也会被叫做 Bitmap。
Example
import "github.com/willf/bitset" var b bitset.BitSet // 定义一个BitSet对象
b.Set().Set() // 给这个set新增两个值10和11
if b.Test() { // 查看set中是否有1000这个值(我觉得Test这个名字起得是真差劲,为啥不叫Exist)
b.Clear() // 情况set
}
for i,e := v.NextSet(); e; i,e = v.NextSet(i + ) { // 遍历整个Set
fmt.Println("The following bit is set:",i);
}
if B.Intersection(bitset.New().Set()).Count() > { // set求交集
fmt.Println("Intersection works.")
}
这个包功能已经非常完善了,完整的文档可以参考它的godoc。我使用这些包,除了看重基础功能(对于集合,就是增删改查这些),还有就是得方便调试。bitset内部保存数字都是按位存的,如果调试的时候是把bitset的内部数据给我看,我也是看不懂的,还好这个包提供了String()方法,可以把我设置的数据已字符串的形式返回,棒棒哒。
实现原理
研究一下实现原理才是我的Style。大概说一下原理。正整数集合可以都放到一个大的整数里面,用位来表示数字。比如1001就可以表示0和2这两个数字。用一个bit代替了一个int,可以大大降低内存的占用。但是一个整数最大也就64位,也就是说最大表示的数字就是64了,所以可以通过多个int拼接的形式来表示大整数。
bitset的内部数据结构,很亲切有木有:
type BitSet struct {
length uint // set的大小
set []uint64 // 这个就会被用来表示一个大整数
}
通过下面的测试代码对于内部实现一探究竟:
var b bitset.BitSet // 定义一个BitSet对象
fmt.Println(b.Bytes()) // >> []
b.Set()
fmt.Println(b.Bytes(),) // >> [1] 0
b.Set() // 给这个set新增两个值10
fmt.Println(b.Bytes(),,)// >> [1025] 0 10
b.Set()
fmt.Println(b.Bytes(),,,) // >> [1025 1] 0 10 64
if b.Test() { // 查看set中是否有1000这个值(我觉得Test这个名字起得是真差劲,为啥不叫Exist)
b.Clear() // 情况set
}
输出:
- 新建的bitset,set是空
[] - 放入了一个0,用第一位表示,也就是
0x00000001 - 放入了10,内部结构
0x00000041 - 放入了64,这个时候一个整数已经存不下了,内部结构是
0x00000041和0x00000001。set这个数组里面,从前往后表示的数据依次增加,但是在uint64内部,是从低位开始,低位表示小的数。
与其它数据结构的对比
表示正整数的集合,Golang有很多种方式,自带的map就可以,当然这是最差的一种选择,首先就是内存的浪费,其次是每次查找还涉及到hash计算,虽然理论上hashmap的复杂度是O(1),实际上跟bitset比完全就是渣渣。此外,bitset都得升级版roaring也是不错的选择。如果你要保存的数据是10000000000这种级别的,那么用bitset就会存在低位浪费内存的情况,roaring可以用来压缩空间。
import (
"testing" "github.com/RoaringBitmap/roaring"
"github.com/willf/bitset"
) func BenchmarkMap(b *testing.B) {
var B = make(map[int]int8, )
B[] =
B[] =
for i := ; i < b.N; i++ {
if _, exists := B[]; exists { }
if _, exists := B[]; exists { }
if _, exists := B[]; exists { }
}
} func BenchmarkBitset(b *testing.B) {
var B bitset.BitSet
B.Set().Set()
for i := ; i < b.N; i++ {
if B.Test() { }
if B.Test() { }
if B.Test() { }
}
} func BenchmarkRoaring(b *testing.B) {
for i := ; i < b.N; i++ {
B := roaring.BitmapOf(, )
if B.ContainsInt() { }
if B.ContainsInt() {
}
if B.ContainsInt() { } }
} $ go test -bench=.* -benchmem BenchmarkMap- 28.4 ns/op B/op allocs/op
BenchmarkBitset- 1.86 ns/op B/op allocs/op
BenchmarkRoaring- ns/op B/op allocs/op
结论
如果是比较连续的非负整数,推荐用bitset解决集合的问题。当然具体问题具体分析。
本文所涉及到的完整源码请参考。
原文链接:Golang 优化之路——bitset,转载请注明来源!
Golang 优化之路——bitset的更多相关文章
- Golang 优化之路-空结构[转]
写在前面 开发 hashset 常用的套路: map[int]int8 map[int]bool 我们一般只用 map 的键来保存数据,值是没有用的.所以来缓存集合数据会造成内存浪费. 空对象 空对象 ...
- 微博MySQL优化之路--dockone微信群分享
微博MySQL优化之路 数据库是所有架构中不可缺少的一环,一旦数据库出现性能问题,那对整个系统都回来带灾难性的后果.并且数据库一旦出现问题,由于数据库天生有状态(分主从)带数据(一般还不小),所以出问 ...
- 新浪微博iOS客户端架构与优化之路
新浪微博iOS客户端架构与优化之路 随着Facebook.Twitter.微博的崛起,向UGC.PGC.OGC,自媒体提供平台的内 容消费型App逐渐形成了独特的客户端架构模式.与电商和通讯工具类 ...
- 阿里巴巴 web前端性能优化进阶路
Web前端性能优化WPO,相信大多数前端同学都不会陌生,在各自所负责的站点页面中,也都会或多或少的有过一定的技术实践.可以说,这个领域并不缺乏成熟技术理论和技术牛人:例如Yahoo的web站点性能优化 ...
- 专访阿里巴巴研究员“赵海平”:Facebook的PHP底层性能优化之路(HipHop,HHVM)
专访阿里巴巴研究员“赵海平”:Facebook的PHP底层性能优化之路 http://www.infoq.com/cn/articles/interview-alibaba-zhaohaiping
- CSS代码重构与优化之路(转)
CSS代码重构与优化之路 阅读目录 CSS代码重构的目的 CSS代码重构的基本方法 CSS方法论 我自己总结的方法 写CSS的同学们往往会体会到,随着项目规模的增加,项目中的CSS代码也会越来越多 ...
- Go怎么获取当前时间? Go ARM64 vDSO优化之路
https://mzh.io/ Go ARM64 vDSO优化之路 2018-03-16 | Meng Zhuo 背景 Go怎么获取当前时间?问一个会Go的程序员,他随手就能写这个出来给你. imp ...
- Greenplum 性能优化之路 --(二)存储格式
一.存储格式介绍 Greenplum(以下简称 GP)有2种存储格式,Heap 表和 AO 表(AORO 表,AOCO 表). Heap 表:这种存储格式是从 PostgreSQL 继承而来的,目前是 ...
- H5动画优化之路
H5动画60fps之路 在移动端,和Native相比,H5一直都被人吐槽性能差,尤其是在动画方面. 谈到整个Web app的生命周期,一般分为四个部分: 加载 等待用户 响应用户 动画 一般情况下,首 ...
随机推荐
- mysql:insert插入数据过慢如何解决,设置innodb_flush_log_at_trx_commit为0就能解决
问题: 最近在做性能测试,造数据,发现insert好慢,只有几十条每秒,很奇怪,最后再网上找到了原因. 网文如下: MY SQL insert 速度过慢 最近在用MySQL做存储,测试中发现插入数据太 ...
- svn各种表示含义及解决
- 前端基础之JavaScript - day14
写在前面 上课第14天,打卡: 唯心不易,坚持! 参考:http://www.cnblogs.com/yuanchenqi/articles/6893904.html 前言 一个完整的 JavaScr ...
- Nginx 配置反向代理后,页面中取绝对URL地址的问题显示代理端口
本文有V型知识库提供 upstream tomcat { server 127.0.0.1:82;} location / { proxy_pass http://tomcat;} 如上 ...
- 微信小程序开发(2) 计算器
在这篇微信小程序开发教程中,我们将介绍如何使用微信小程序开发计算器功能. 本文主要分为两个部分,小程序主体部分及计算器业务页面部分 一.小程序主体部分 一个小程序主体部分由三个文件组成,必须放在项目的 ...
- luogu 1966 火柴排队 离散化+逆序对
题意:找到最小改变对数使a数组的第i大和b数组的第i大相等 则先将a,b,数组编号再排序,则数组显示的就是排名第i的数的编号 再关键一步:c[a[i].id]=b[i].id 实质上就是新建一个数组, ...
- 【解题报告】SRM-08
A Description 给一个 01 串设为其 S,询问是否存在只出现两次的 01 串 T. 这里的出现定义为存在一串下标 ,满足 且 . Input 一行,一个 01 串 Output 一行, ...
- JavaScript之正则表达式[应用实例]
1. 获取信息 "水资源利用与保护周三第9,10,11节{第1-6周}施浩然3B-302多媒体教室152座信息检索周三第9,10节{第9-12周}谭长拥4A-207多媒体160座{第12周} ...
- vue框架导入百度地图API接口的方法
百度请求API接口:
- GB GBRT XgBoost
https://blog.csdn.net/github_38414650/article/details/76061893 https://www.cnblogs.com/wxquare/p/554 ...