Golang 优化之路——bitset
写在前面
开发过程中会经常处理集合这种数据结构,简单点的处理方法都是使用内置的map实现。但是如果要应对大量数据,例如,存放大量电话号码,使用map占用内存大的问题就会凸显出来。内存占用高又会带来一些列的问题,这里就不展开说了。还有就是,大量数据存放于map,查找的哈希算法消耗也会很高。这时就该考虑对数据结构进行优化。之前浏览awesome-go时发现了一种叫bitset的数据结构,今天就介绍一下它。
bitset 简介
首先这是一个数据结构。从名字set不难发现,这是一个集合的数据结构。bit的含义也比较好懂,通过set是通过bit实现的。如果你需要一个集合,正好集合内的元素都是正整数,那么用这个就没错了。
注:biset 有时也会被叫做 Bitmap。
Example
import "github.com/willf/bitset" var b bitset.BitSet // 定义一个BitSet对象
b.Set().Set() // 给这个set新增两个值10和11
if b.Test() { // 查看set中是否有1000这个值(我觉得Test这个名字起得是真差劲,为啥不叫Exist)
b.Clear() // 情况set
}
for i,e := v.NextSet(); e; i,e = v.NextSet(i + ) { // 遍历整个Set
fmt.Println("The following bit is set:",i);
}
if B.Intersection(bitset.New().Set()).Count() > { // set求交集
fmt.Println("Intersection works.")
}
这个包功能已经非常完善了,完整的文档可以参考它的godoc。我使用这些包,除了看重基础功能(对于集合,就是增删改查这些),还有就是得方便调试。bitset内部保存数字都是按位存的,如果调试的时候是把bitset的内部数据给我看,我也是看不懂的,还好这个包提供了String()方法,可以把我设置的数据已字符串的形式返回,棒棒哒。
实现原理
研究一下实现原理才是我的Style。大概说一下原理。正整数集合可以都放到一个大的整数里面,用位来表示数字。比如1001就可以表示0和2这两个数字。用一个bit代替了一个int,可以大大降低内存的占用。但是一个整数最大也就64位,也就是说最大表示的数字就是64了,所以可以通过多个int拼接的形式来表示大整数。
bitset的内部数据结构,很亲切有木有:
type BitSet struct {
length uint // set的大小
set []uint64 // 这个就会被用来表示一个大整数
}
通过下面的测试代码对于内部实现一探究竟:
var b bitset.BitSet // 定义一个BitSet对象
fmt.Println(b.Bytes()) // >> []
b.Set()
fmt.Println(b.Bytes(),) // >> [1] 0
b.Set() // 给这个set新增两个值10
fmt.Println(b.Bytes(),,)// >> [1025] 0 10
b.Set()
fmt.Println(b.Bytes(),,,) // >> [1025 1] 0 10 64
if b.Test() { // 查看set中是否有1000这个值(我觉得Test这个名字起得是真差劲,为啥不叫Exist)
b.Clear() // 情况set
}
输出:
- 新建的bitset,set是空
[] - 放入了一个0,用第一位表示,也就是
0x00000001 - 放入了10,内部结构
0x00000041 - 放入了64,这个时候一个整数已经存不下了,内部结构是
0x00000041和0x00000001。set这个数组里面,从前往后表示的数据依次增加,但是在uint64内部,是从低位开始,低位表示小的数。
与其它数据结构的对比
表示正整数的集合,Golang有很多种方式,自带的map就可以,当然这是最差的一种选择,首先就是内存的浪费,其次是每次查找还涉及到hash计算,虽然理论上hashmap的复杂度是O(1),实际上跟bitset比完全就是渣渣。此外,bitset都得升级版roaring也是不错的选择。如果你要保存的数据是10000000000这种级别的,那么用bitset就会存在低位浪费内存的情况,roaring可以用来压缩空间。
import (
"testing" "github.com/RoaringBitmap/roaring"
"github.com/willf/bitset"
) func BenchmarkMap(b *testing.B) {
var B = make(map[int]int8, )
B[] =
B[] =
for i := ; i < b.N; i++ {
if _, exists := B[]; exists { }
if _, exists := B[]; exists { }
if _, exists := B[]; exists { }
}
} func BenchmarkBitset(b *testing.B) {
var B bitset.BitSet
B.Set().Set()
for i := ; i < b.N; i++ {
if B.Test() { }
if B.Test() { }
if B.Test() { }
}
} func BenchmarkRoaring(b *testing.B) {
for i := ; i < b.N; i++ {
B := roaring.BitmapOf(, )
if B.ContainsInt() { }
if B.ContainsInt() {
}
if B.ContainsInt() { } }
} $ go test -bench=.* -benchmem BenchmarkMap- 28.4 ns/op B/op allocs/op
BenchmarkBitset- 1.86 ns/op B/op allocs/op
BenchmarkRoaring- ns/op B/op allocs/op
结论
如果是比较连续的非负整数,推荐用bitset解决集合的问题。当然具体问题具体分析。
本文所涉及到的完整源码请参考。
原文链接:Golang 优化之路——bitset,转载请注明来源!
Golang 优化之路——bitset的更多相关文章
- Golang 优化之路-空结构[转]
写在前面 开发 hashset 常用的套路: map[int]int8 map[int]bool 我们一般只用 map 的键来保存数据,值是没有用的.所以来缓存集合数据会造成内存浪费. 空对象 空对象 ...
- 微博MySQL优化之路--dockone微信群分享
微博MySQL优化之路 数据库是所有架构中不可缺少的一环,一旦数据库出现性能问题,那对整个系统都回来带灾难性的后果.并且数据库一旦出现问题,由于数据库天生有状态(分主从)带数据(一般还不小),所以出问 ...
- 新浪微博iOS客户端架构与优化之路
新浪微博iOS客户端架构与优化之路 随着Facebook.Twitter.微博的崛起,向UGC.PGC.OGC,自媒体提供平台的内 容消费型App逐渐形成了独特的客户端架构模式.与电商和通讯工具类 ...
- 阿里巴巴 web前端性能优化进阶路
Web前端性能优化WPO,相信大多数前端同学都不会陌生,在各自所负责的站点页面中,也都会或多或少的有过一定的技术实践.可以说,这个领域并不缺乏成熟技术理论和技术牛人:例如Yahoo的web站点性能优化 ...
- 专访阿里巴巴研究员“赵海平”:Facebook的PHP底层性能优化之路(HipHop,HHVM)
专访阿里巴巴研究员“赵海平”:Facebook的PHP底层性能优化之路 http://www.infoq.com/cn/articles/interview-alibaba-zhaohaiping
- CSS代码重构与优化之路(转)
CSS代码重构与优化之路 阅读目录 CSS代码重构的目的 CSS代码重构的基本方法 CSS方法论 我自己总结的方法 写CSS的同学们往往会体会到,随着项目规模的增加,项目中的CSS代码也会越来越多 ...
- Go怎么获取当前时间? Go ARM64 vDSO优化之路
https://mzh.io/ Go ARM64 vDSO优化之路 2018-03-16 | Meng Zhuo 背景 Go怎么获取当前时间?问一个会Go的程序员,他随手就能写这个出来给你. imp ...
- Greenplum 性能优化之路 --(二)存储格式
一.存储格式介绍 Greenplum(以下简称 GP)有2种存储格式,Heap 表和 AO 表(AORO 表,AOCO 表). Heap 表:这种存储格式是从 PostgreSQL 继承而来的,目前是 ...
- H5动画优化之路
H5动画60fps之路 在移动端,和Native相比,H5一直都被人吐槽性能差,尤其是在动画方面. 谈到整个Web app的生命周期,一般分为四个部分: 加载 等待用户 响应用户 动画 一般情况下,首 ...
随机推荐
- 【1】【leetcode-127】单词接龙word-ladder
(不会,经典广度优先搜索) 给定两个单词(beginWord 和 endWord)和一个字典,找到从 beginWord 到 endWord 的最短转换序列的长度.转换需遵循如下规则: 每次转换只能改 ...
- [leetcode-108,109] 将有序数组转换为二叉搜索树
109. 有序链表转换二叉搜索树 Given a singly linked list where elements are sorted in ascending order, convert it ...
- HDU 1050(搬椅子 数学)
题意是在一个有 400 个房间的走廊中搬动房间里的椅子,如果两次的路线重叠,就要分两次搬动,如果不重叠,就可以一次搬动. 开始的时候直接当成求线段重叠条数的题,发现这种思路完全是错的,比如 1 - 3 ...
- Android面试基础(一)IOC(DI)框架(ViewUtils)讲解_反射和自定义注解类
1. Android中的IOC(DI)框架 1.1 ViewUtils简介(xUtils中的四大部分之一) IOC: Inverse of Controller 控制反转. DI: Dependenc ...
- Nginx 学习笔记(十)介绍HTTP / 2服务器推送(译)
原文地址:https://www.nginx.com/blog/nginx-1-13-9-http2-server-push/ 我们很高兴地宣布,2018年2月20日发布的NGINX 1.13.9支持 ...
- HTTP.SYS远程执行代码漏洞分析 (MS15-034 )
写在前言: 在2015年4月安全补丁日,微软发布了11项安全更新,共修复了包括Microsoft Windows.Internet Explorer.Office..NET Framework.S ...
- 利用PHP连接数据库——实现用户数据的增删改查的整体操作实例
main页面(主页面) <table width="100%" border="1" cellpadding="0" cellspac ...
- JDK1.8源码分析之Comparable && Comparator
import java.util.ArrayList; import java.util.Arrays; import java.util.Collections; import java.util. ...
- delegate事件委托
下面举个例子 我们希望通过点击使得点击的li标签变红 <body style="height:2000px;"> <ul> <li>1111&l ...
- lambda创建匿名函数
1)print map(lambda x: x + 1, [y for y in range(10)]) 输出:[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]map(lambda &l ...