BitMap算法及其实现(Python)
BitMap概述
本文介绍 BitMap 算法的应用背景,算法思想和相关实现细节。
概括而言,BitMap 主要用来解决海量数据中元素查询,去重、以及排序等问题。这里对海量数据场景的强调,似乎暗示了这个算法对空间的利用相当的精巧和经济,事实确实如此。
BitMap算法
本来数据序列的排序是一个平凡的任务,现有的多种排序算法,都有各自擅场能适应不同情形的具体要求。但我们考虑这样一个场景:有一台内存为 4 GB 的 PC,其硬盘中的一个存储了 30 亿个无符号整型数据文件,这些整数一行一个且无重复。现在需要我们对这个文件中的数据进行排序后输出。
简单计算不难得到,这个数据文件的大小为 \(4\cdot3\cdot10^9/2^{30}\) 约为 11.2 GB,显然将这个数据文件直接读入内存是办不到的。能否强行利用现有的内存 size 来存储这些数据呢?答案是可能的,此时 BitMap 算法就该 C 位亮相了。BitMap 的想法相当精妙,它对整型数据作了一种转化,使得这个办不到的存储成为可能。我们这里忽略不同语言的设定,假设一个 int 整数占 4 个字节,即32 bit,如果我们能用一个 bit 位来标示一个 int 整数,那么需要的存储空间将大大减少,估算一下可知,30亿个整数需要的内存空间为 \(3\cdot10^9/8/2^{20}\) 大概为 357.6 MB,这样,我们可以轻易将这 30 亿个 int 数放到内存中进行处理。
具体而言,BitMap 对数据的转化可简述如下:
一个整型 int 占 4 bytes,共32位,我们申请一个 int 长度为 N//32 + 1 的数组,即可存储完这些数据,其中 N 表示要进行查找的最大整数,这可以经读取遍历一轮数据获得。通过数组中的每个元素在内存在占 32 位对应表示十进制数 0-31,故可得到 BitMap 表:
array[0] 可表示 0-31
array[1] 可表示 32-63
array[2] 可表示 64-95
...
下面就只剩下如何将十进制数转换为对应的二进制 bit 位,实现以 1 当 32 的效果,显然,这部分实现只需用到一些位运算操作,具体细节见下面的代码示例。不难看出,Bitmap 排序需要的时间复杂度和空间复杂度依赖于数据中最大的数字。
代码实现
from array import array
class BitMap:
def __init__(self):
self.n = 5
self.bitsize = 1 << self.n
self.typecode = 'I' # 32位unsighed整型
self.lowerbound = 0 # 若数组中有负数,则所有数都减去最小的那个负数
@staticmethod
def greater_power2n(x):
i = 1
while True:
y = x >> i
x |= y
if y == 0:
break
i <<= 1
return x + 1
def load(self, inp):
'''
一般情形,数据应该是流式读取,这里简化起见不失一般性,将数据直接全部读完
'''
mini = min(inp)
if mini < 0:
self.lowerbound = -mini # 如果数组中有<0的数,则所有数都要减去最小的那个负数
inp = [i + self.lowerbound for i in inp]
maxi = max(inp)
num_arr = max(self.greater_power2n(maxi) >> self.n, 1) # 至少应该使用一个数组
self.arr = array(self.typecode, [0] * num_arr)
for x in inp:
self._set(x)
def _set(self, x, set_val=True):
'''
将x在数组中对应元置为1
'''
arr_idx = x >> self.n # 元素在第几个数组中,等价于x // 2**self.n
bit_idx = x & (self.bitsize - 1) # 元素在相应数组中的第几个bit位,等价于x % 2**self.n
if set_val:
self.arr[arr_idx] |= 1 << bit_idx
else:
self.arr[arr_idx] &= ~(1 << bit_idx)
def search(self, x):
if self.lowerbound != 0:
x += self.lowerbound
arr_idx = x >> self.n
bit_idx = x & (self.bitsize - 1)
existence = True if self.arr[arr_idx] & (1 << bit_idx) else False
return existence
def sort(self):
sorted_seq = []
for arr_idx, a in enumerate(self.arr):
for bit_idx in range(self.bitsize):
if a & (1 << bit_idx):
sorted_seq.append(arr_idx * self.bitsize + bit_idx - self.lowerbound)
return sorted_seq
def show_bitmap(self):
for i, a in enumerate(self.arr):
print('The {}th array elements: {:032b}'.format(i, a))
测试结果
>>> bitmap = BitMap()
>>> bitmap.load([-3, 2, 56, -34, 40, 21, 99, 25])
>>> bitmap.search(21), bitmap.search(3)
(True, False)
>>> bitmap.sort()
[-34, -3, 2, 21, 25, 40, 56, 99]
参考资料
[1] 黑胡同里の猫,详解BitMap算法,https://www.520mwx.com/view/59057
[2] Joe Bentley,Programming Pears(second edition)
BitMap算法及其实现(Python)的更多相关文章
- BitMap算法知识笔记以及在大数据方向的使用
概述 所谓的BitMap算法就是位图算法,简单说就是用一个bit位来标记某个元素所对应的value,而key即是该元素,由于BitMap使用了bit位来存储数据,因此可以大大节省存储空间,这是很常用的 ...
- BitMap算法应用:Redis队列滤重优化
工作中有用到Redis滤重队列. 原来的方法如下: 方法一 为了保证操作原子性,使用Redis执行Lua脚本. 在脚本中的逻辑是,如果队列不超过某个数值,进行一次lrem操作(队列使用list结构), ...
- bitmap算法
概述 所谓bitmap就是用一个bit位来标记某个元素对应的value,而key即是这个元素.由于采用bit为单位来存储数据,因此在可以大大的节省存储空间 算法思想 32位机器上,一个整形,比如int ...
- 经典算法题每日演练——第十一题 Bitmap算法
原文:经典算法题每日演练--第十一题 Bitmap算法 在所有具有性能优化的数据结构中,我想大家使用最多的就是hash表,是的,在具有定位查找上具有O(1)的常量时间,多么的简洁优美, 但是在特定的场 ...
- BitMap 算法
什么是 BigMap 算法 所谓 BitMap 就是用一个 bit 位来标记某个元素对应的 value,而 key 即是这个元素.由于采用bit为单位来存储数据,因此在可以大大的节省存储空间. 算法思 ...
- 【算法与数据结构专场】BitMap算法基本操作代码实现
上篇我们讲了BitMap是如何对数据进行存储的,没看过的可以看一下[算法与数据结构专场]BitMap算法介绍 这篇我们来讲一下BitMap这个数据结构的代码实现. 回顾下数据的存储原理 一个二进制位对 ...
- 光照问题之常见算法比较(附Python代码)
一.灰度世界算法 ① 算法原理 灰度世界算法以灰度世界假设为基础,该假设认为:对于一幅有着大量色彩变化的图像,R,G,B三个分量的平均值趋于同一灰度值Gray.从物理意义上讲,灰色世界法假设自然界景物 ...
- DeepFM算法解析及Python实现
1. DeepFM算法的提出 由于DeepFM算法有效的结合了因子分解机与神经网络在特征学习中的优点:同时提取到低阶组合特征与高阶组合特征,所以越来越被广泛使用. 在DeepFM中,FM算法负责对一阶 ...
- 浅谈bitmap算法
一.bitmap算法思想 32位机器上,一个整形,比如int a; 在内存中占32bit位,可以用对应的32bit位对应十进制的0-31个数,bitmap算法利用这种思想处理大量数据的排序与查询. ...
随机推荐
- docer run 、docker attach 与 docker exec的区别
进入容器的方式有以下三种: 使用ssh登陆进容器 使用nsenter.nsinit等第三方工具 使用Docker本身提供的工具 最佳方案为使用Docker本身提供的工具 docker run:创建和启 ...
- 利用Python科学计算处理物理问题(和物理告个别)
背景: 2019年初由于尚未学习量子力学相关知识,所以处于自学阶段.浅显的学习了曾谨言的量子力学一卷和格里菲斯编写的量子力学教材.注重将量子力学的一些基本概念了解并理解.同时老师向我们推荐了Quant ...
- 请求地址中出现中文或者URL作为参数,为避免含有特殊字符截断URL,需要编码
URL中担心出现特殊符号!*'();:@&=+$,/?%#[] 从而截断完整的URL,需要对URL编码,服务端对URL再解码 参考: https://blog.csdn.net/aaaaazq ...
- Flutter “孔雀开屏”的动画效果
老孟导读:今天分享一个类似"孔雀开屏"的动画效果,打开新的页面时,新的页面从屏幕右上角以圆形逐渐打开到全屏. 先来看下具体的效果 不知道这种效果大家叫什么名字?如果有更合适的名字可 ...
- JAVA 基础知识。程序运方法。
dos 常用命令 dir 查看此文件夹目录下的所有程序 cd.. 返回上一层目录 盘符: 直接切换至相应的盘符 cd 目录 切换至指定的目录 cd ...
- vue中生命周期
1,说器生命周期,总觉得有熟悉,又陌生,直到看到一道面试题,问父子组件的生命周期的执行顺序,我擦,真没太注意啊,不知道. 2,网上搜了一下,说法是有点像洋葱圈的形式,由外到内,在到外,因为就像一个盒子 ...
- [JavaWeb基础] 016.Struts2 国际化配置
如果一个软件想要让其受众是全球或者是几个国家的人,那么这个软件就需要支持多种语言,那么我们就需要软件的国际化去对一些文字信息进行国际化处理.web也一样,当外国人打开我们的网站,要是看到满屏幕的中文, ...
- 读Pyqt4教程,带你入门Pyqt4 _012
颜色 颜色是指一个代表红(Red).绿(Green).蓝(Blue)(RGB)强度值组合的对象,有效的RGB值在0~255之间.我们可以用多种方式定义颜色,最常用的是RGB十进制或者十六进制值.也可以 ...
- Java IO(五)字节流 FileInputStream 和 FileOutputStream
Java IO(五)字节流 FileInputStream 和 FileOutputStream 一.介绍 字节流 InputStream 和 OutputStream 是字节输入流和字节输出流的超类 ...
- css 禁用浏览器滚动条,初始最外层包含容器 wrapper
浏览器默认的视窗会随着滚动条滚动,绝对定位的元素会随着滚动条滚动,为了解决这个问题我们需要禁止浏览器的滚动条,然后在代码的最外层初始化一个 div(最外层包含容容器代替默认的视窗),是滚动天出现在最外 ...