写在前面

开发过程中会经常处理集合这种数据结构,简单点的处理方法都是使用内置的map实现。但是如果要应对大量数据,例如,存放大量电话号码,使用map占用内存大的问题就会凸显出来。内存占用高又会带来一些列的问题,这里就不展开说了。还有就是,大量数据存放于map,查找的哈希算法消耗也会很高。这时就该考虑对数据结构进行优化。之前浏览awesome-go时发现了一种叫bitset的数据结构,今天就介绍一下它。

bitset 简介

首先这是一个数据结构。从名字set不难发现,这是一个集合的数据结构。bit的含义也比较好懂,通过set是通过bit实现的。如果你需要一个集合,正好集合内的元素都是正整数,那么用这个就没错了。

注:biset 有时也会被叫做 Bitmap。

Example

import "github.com/willf/bitset"

var b bitset.BitSet // 定义一个BitSet对象
b.Set().Set() // 给这个set新增两个值10和11
if b.Test() { // 查看set中是否有1000这个值(我觉得Test这个名字起得是真差劲,为啥不叫Exist)
b.Clear() // 情况set
}
for i,e := v.NextSet(); e; i,e = v.NextSet(i + ) { // 遍历整个Set
fmt.Println("The following bit is set:",i);
}
if B.Intersection(bitset.New().Set()).Count() > { // set求交集
fmt.Println("Intersection works.")
}

这个包功能已经非常完善了,完整的文档可以参考它的godoc。我使用这些包,除了看重基础功能(对于集合,就是增删改查这些),还有就是得方便调试。bitset内部保存数字都是按位存的,如果调试的时候是把bitset的内部数据给我看,我也是看不懂的,还好这个包提供了String()方法,可以把我设置的数据已字符串的形式返回,棒棒哒。

实现原理

研究一下实现原理才是我的Style。大概说一下原理。正整数集合可以都放到一个大的整数里面,用位来表示数字。比如1001就可以表示0和2这两个数字。用一个bit代替了一个int,可以大大降低内存的占用。但是一个整数最大也就64位,也就是说最大表示的数字就是64了,所以可以通过多个int拼接的形式来表示大整数。

bitset的内部数据结构,很亲切有木有:

type BitSet struct {
length uint // set的大小
set []uint64 // 这个就会被用来表示一个大整数
}

通过下面的测试代码对于内部实现一探究竟:

var b bitset.BitSet // 定义一个BitSet对象
fmt.Println(b.Bytes()) //  >> []
b.Set()
fmt.Println(b.Bytes(),) // >> [1] 0
b.Set() // 给这个set新增两个值10
fmt.Println(b.Bytes(),,)// >>  [1025] 0 10
b.Set()
fmt.Println(b.Bytes(),,,) // >> [1025 1] 0 10 64
if b.Test() { // 查看set中是否有1000这个值(我觉得Test这个名字起得是真差劲,为啥不叫Exist)
b.Clear() // 情况set
}

输出:

  • 新建的bitset,set是空[]
  • 放入了一个0,用第一位表示,也就是0x00000001
  • 放入了10,内部结构0x00000041
  • 放入了64,这个时候一个整数已经存不下了,内部结构是0x000000410x00000001。set这个数组里面,从前往后表示的数据依次增加,但是在uint64内部,是从低位开始,低位表示小的数。

与其它数据结构的对比

表示正整数的集合,Golang有很多种方式,自带的map就可以,当然这是最差的一种选择,首先就是内存的浪费,其次是每次查找还涉及到hash计算,虽然理论上hashmap的复杂度是O(1),实际上跟bitset比完全就是渣渣。此外,bitset都得升级版roaring也是不错的选择。如果你要保存的数据是10000000000这种级别的,那么用bitset就会存在低位浪费内存的情况,roaring可以用来压缩空间。

import (
"testing" "github.com/RoaringBitmap/roaring"
"github.com/willf/bitset"
) func BenchmarkMap(b *testing.B) {
var B = make(map[int]int8, )
B[] =
B[] =
for i := ; i < b.N; i++ {
if _, exists := B[]; exists { }
if _, exists := B[]; exists { }
if _, exists := B[]; exists { }
}
} func BenchmarkBitset(b *testing.B) {
var B bitset.BitSet
B.Set().Set()
for i := ; i < b.N; i++ {
if B.Test() { }
if B.Test() { }
if B.Test() { }
}
} func BenchmarkRoaring(b *testing.B) {
for i := ; i < b.N; i++ {
B := roaring.BitmapOf(, )
if B.ContainsInt() { }
if B.ContainsInt() {
}
if B.ContainsInt() { } }
} $ go test -bench=.* -benchmem BenchmarkMap- 28.4 ns/op B/op allocs/op
BenchmarkBitset- 1.86 ns/op B/op allocs/op
BenchmarkRoaring- ns/op B/op allocs/op
结论

如果是比较连续的非负整数,推荐用bitset解决集合的问题。当然具体问题具体分析。

本文所涉及到的完整源码请参考


原文链接:Golang 优化之路——bitset,转载请注明来源!

Golang 优化之路——bitset的更多相关文章

  1. Golang 优化之路-空结构[转]

    写在前面 开发 hashset 常用的套路: map[int]int8 map[int]bool 我们一般只用 map 的键来保存数据,值是没有用的.所以来缓存集合数据会造成内存浪费. 空对象 空对象 ...

  2. 微博MySQL优化之路--dockone微信群分享

    微博MySQL优化之路 数据库是所有架构中不可缺少的一环,一旦数据库出现性能问题,那对整个系统都回来带灾难性的后果.并且数据库一旦出现问题,由于数据库天生有状态(分主从)带数据(一般还不小),所以出问 ...

  3. 新浪微博iOS客户端架构与优化之路

    新浪微博iOS客户端架构与优化之路   随着Facebook.Twitter.微博的崛起,向UGC.PGC.OGC,自媒体提供平台的内 容消费型App逐渐形成了独特的客户端架构模式.与电商和通讯工具类 ...

  4. 阿里巴巴 web前端性能优化进阶路

    Web前端性能优化WPO,相信大多数前端同学都不会陌生,在各自所负责的站点页面中,也都会或多或少的有过一定的技术实践.可以说,这个领域并不缺乏成熟技术理论和技术牛人:例如Yahoo的web站点性能优化 ...

  5. 专访阿里巴巴研究员“赵海平”:Facebook的PHP底层性能优化之路(HipHop,HHVM)

    专访阿里巴巴研究员“赵海平”:Facebook的PHP底层性能优化之路 http://www.infoq.com/cn/articles/interview-alibaba-zhaohaiping

  6. CSS代码重构与优化之路(转)

    CSS代码重构与优化之路   阅读目录 CSS代码重构的目的 CSS代码重构的基本方法 CSS方法论 我自己总结的方法 写CSS的同学们往往会体会到,随着项目规模的增加,项目中的CSS代码也会越来越多 ...

  7. Go怎么获取当前时间? Go ARM64 vDSO优化之路

    https://mzh.io/ Go ARM64 vDSO优化之路 2018-03-16  | Meng Zhuo 背景 Go怎么获取当前时间?问一个会Go的程序员,他随手就能写这个出来给你. imp ...

  8. Greenplum 性能优化之路 --(二)存储格式

    一.存储格式介绍 Greenplum(以下简称 GP)有2种存储格式,Heap 表和 AO 表(AORO 表,AOCO 表). Heap 表:这种存储格式是从 PostgreSQL 继承而来的,目前是 ...

  9. H5动画优化之路

    H5动画60fps之路 在移动端,和Native相比,H5一直都被人吐槽性能差,尤其是在动画方面. 谈到整个Web app的生命周期,一般分为四个部分: 加载 等待用户 响应用户 动画 一般情况下,首 ...

随机推荐

  1. HDU 1052(田忌赛马 贪心)

    题意是田忌赛马的背景,双方各有n匹马,下面两行分别是田忌和齐王每匹马的速度,要求输出田忌最大的净胜场数*每场的赌金200. 开始的时候想对双方的马匹速度排序,然后比较最快的马,能胜则胜,否则用最慢的马 ...

  2. Shell编程(五)脚本语法

    ${}: 数据“内容”删除,替换:{}: 列表 1. 条件测试: test =~:正则匹配 2. if/then/elif/else/fi #!/bin/bash echo "Is it o ...

  3. 在浏览器窗口中加载新的url

    通常,在前端页面中如果需要跳转到指定页面,可以通过<a>标签进行跳转.而在某些情况下,比如ajax调用之后想直接跳转到指定页面,想跳转页面不能再用<a>标签实现.此时,可以通过 ...

  4. C++ 出现异常“.... \debug_heap.cpp Line:980 Expression:__acrt_first_block==header"

    本人是在写dll项目中出现了这个问题,经过一天的研究,尝试了三个步骤1.在配置属性->常规->MFC的使用中,将在静态库中使用MFC改为在共享DLL中使用MFC.但是还会出错2.原因是dl ...

  5. 十七、文件和目录——minishell(1)

    主函数运行要去读取从标准输入或终端上输入的整个命令行,然后再去解析命令行参数,解析出来之后,要将其封装成一个 program,然后再将 program 放入 job 中,然后再去执行 job 中的命令 ...

  6. 十一、移植优化---CONFIG 优化进 menuconfig(2)

    11.3 jz2440.h 中的剩余宏移植 11.3.1 CONFIG_SYS_TEXT_BASE CONFIG_SYS_TEXT_BASE:设置系统代码段的基地址,设为 0x0:menuconfig ...

  7. 通过GUI制作一个简单的消息对话框互发消息

    public class LTS extends JFrame { private JPanel contentPane; private JTextField textField; private ...

  8. luogu P4183 [USACO18JAN]Cow at Large P

    传送门 首先考虑N^2做法,每次从一个点出发,如果到达一个点,然后到达这个点的时间\(\le\)离这个点最近的叶子距离\(di_x\),那么答案+1,否则继续找点 这个暴力很不好优化.可以这样认为,如 ...

  9. border-radius图解

    自己看了理解的border-radius: 设置参数: 100*100的正方形,第一个:border-top-left-radius:100px 100px,即圆的半径为100px.圆弧与上和左bor ...

  10. C语言库函数syslog

    参考链接:  http://blog.csdn.net/jiangxinyu/article/details/1473356