博客:博客园 | CSDN | blog

写在前面

在数值计算中,为了控制精度以及避免越界,需要严格控制数值的范围,有时需要知道二进制表示中"left-most 1"或"right-most 1”的位置,这篇文章就来介绍一下通过德布鲁因序列(De Bruijn sequence)来快速定位的方法。

标记left-most 1与right-most 1

对于一个二进制数\(v\),如何仅保留最低位或最高位的1?

最低位的1,即right-most 1,其特点是这一位右侧均为0,可通过v & -v或者v & ((~v)+1)来标记最低位的1。

比如0101 1010,取反后为1010 0101,再加1为1010 0110,与后为0000 0010

最高位的1,即left-most 1,其特点是这一位左侧均为0,可通过下面来标记最高位的1。

uint32_t keepHighestBit( uint32_t n )
{
n |= (n >> 1);
n |= (n >> 2);
n |= (n >> 4);
n |= (n >> 8);
n |= (n >> 16);
return n - (n >> 1);
}

前5行移位将最高位1右侧的所有位均置为1,n-(n >> 1)再将他们清0。

至此,我们已经得到了一个二进制的“one hot”表示,只有1位为1,它标记了最高位或最低位1的位置。

确定位置

假设,得到的“one hot”表示为0000 0100 0000 0000,如何确定1在哪一位呢?

比较直接的想法是通过移位计数,不断右移,并计数,直到最低位为1。

有没有更好的方法?

令得到的“one hot”表示为h,对于uint32h只有32种,我们希望找到的这32种one hot表示与\(0\sim 31\)的映射关系,即\(f(h) \rightarrow 0\sim 31\)。

  • 查表:以h对应的uint32数为下标,构建数组,通过查表方式得到,但h最大为\(2^{31}\),直接构建数组不现实
  • 哈希:再增加一层映射,\(f(g(h)) \rightarrow 0\sim 31\),即找到一个hash函数\(g\),先将\(h\)映射到\(0 \sim 31\),再通过查表\(0\sim 31 \rightarrow 0\sim 31\),但一般哈希会涉及到取余操作,还要考虑不要有碰撞

对这个特殊问题,可以使用 德布鲁因序列——可视为一种特殊的哈希,不需要取余,且绝不会发生碰撞。

德布鲁因序列(De Bruijn sequence)

先看一个德布鲁因序列的例子,令字符集\(A = \{0, 1\}\),字符有\(k=2\)种,子串长度\(n=2\),则所有可能的子串有\(\{00, 01, 10, 11\}\),则循环序列\(0011\)是一个德布鲁因序列,\(0011\)的所有连续子串恰好为\(\{00, 01, 10, 11\}\),都出现且只出现一次,同样,循环序列\(1001\)也是一个德布鲁因序列。

可见,德布鲁因序列并不唯一,且是个循环序列,长度恰好为\(k^n\),与所有可能子串的数量相同

wiki上的定义如下,

In combinatorial mathematics, a de Bruijn sequence of order \(n\) on a size-\(k\) alphabet A is a cyclic sequence in which every possible length-\(n\) string on \(A\) occurs exactly once as a substring (i.e., as a contiguous subsequence). Such a sequence is denoted by \(B(k, n)\) and has length \(k^n\), which is also the number of distinct strings of length \(n\) on \(A\).

——from wiki De Bruijn sequence

再举一个\(B(2, 4)\)的例子,序列长度为\(2^4=16\),如下

\[0 0 0 0 1 1 1 1 0 1 1 0 0 1 0 1
\]

其所有循环子串如下,

每个位置的子串均不相同,所有子串对应着\(0\sim 2^n-1\)范围的整数,恰好形成了\(2^n\)个位置与\(2^n\)个数的映射。

德布鲁因序列的使用

h与德布鲁因序列相乘,相当于左移操作,把某位置的子串移到了最左端,再将该子串右移至最右,即仅保留该子串,可知道该子串是什么,因为序列中每个子串的位置都是唯一的,根据映射关系可知道该子串的位置,相当于知道了h。为此需要建立 子串与位置 对应关系的检索表。

unsigned int v;
int r;
static const int MultiplyDeBruijnBitPosition[32] =
{
0, 1, 28, 2, 29, 14, 24, 3, 30, 22, 20, 15, 25, 17, 4, 8,
31, 27, 13, 23, 21, 19, 16, 7, 26, 12, 18, 6, 11, 5, 10, 9
};
r = MultiplyDeBruijnBitPosition[((uint32_t)((v & -v) * 0x077CB531U)) >> 27];
// The index of the LSB in v is stored in r //return the index of the most significant bit set from a 32 bit unsigned integer
uint8_t highestBitIndex( uint32_t b )
{
static const uint32_t deBruijnMagic = 0x06EB14F9;
static const uint8_t deBruijnTable[32] = {
0, 1, 16, 2, 29, 17, 3, 22, 30, 20, 18, 11, 13, 4, 7, 23,
31, 15, 28, 21, 19, 10, 12, 6, 14, 27, 9, 5, 26, 8, 25, 24,
};
return deBruijnTable[(keepHighestBit(b) * deBruijnMagic) >> 27];
}

因为德布鲁因序列是循环序列,而左移操作会自动在最低位填0,所以习惯将全0子串放在序列的最高位,这样比较方便,不需要特殊处理。

德布鲁因序列的生成与索引表的构建

德布鲁因序列可以通过构建德布鲁因图得到,图中每条哈密顿路径(Hamiltonian path)都对应一个德布鲁因序列,

数量共有

\[\frac{(k !)^{k^{n-1}}}{k^{n}}
\]

具体生成方式和证明可查看De Bruijn sequence神奇的德布鲁因序列

保存子串与位置映射关系的检索表可通过如下方式生成,其中debruijn32为德布鲁因序列对应的uint32正整数。

uint8 index32[32] = {0};
void setup( void )
{
int i;
for(i=0; i<32; i++)
index32[ (debruijn32 << i) >> 27 ] = i;
}

参考

德布鲁因序列与indexing 1的更多相关文章

  1. Ural2004: Scientists from Spilkovo(德布鲁因序列&思维)

    Misha and Dima are promising young scientists. They make incredible discoveries every day together w ...

  2. 神秘常量0x077CB531,德布莱英序列的恩赐

    本文发布于游戏程序员刘宇的个人博客, 转载请注明来源https://www.cnblogs.com/xiaohutu/p/10950011.html 某天我在优化游戏的算法,在将一个个关键数据结构优化 ...

  3. De Bruijn序列

    最近文章中经常出现及De Bruijin 这个关键字,网上搜索了一下,记录下来. De Bruijn序列 (德布鲁因序列) 问题:能否构造一个长度为2的n次方的二进制环状串,使得二进制环状串中总共2的 ...

  4. 高效的多维空间点索引算法 — Geohash 和 Google S2

    原文地址:https://www.jianshu.com/p/7332dcb978b2   引子 每天我们晚上加班回家,可能都会用到滴滴或者共享单车.打开 app 会看到如下的界面:     app ...

  5. 3D-camera结构光原理

    3D-camera结构光原理 目前主流的深度探测技术是结构光,TOF,和双目.具体的百度就有很详细的信息. 而结构光也有双目结构光和散斑结构光等,没错,Iphone X 的3D深度相机就用 散斑结构光 ...

  6. <..................> 哈佛大学哲学系 && 历史哲学笔记文献集

    哈佛大学哲学系课程表            (一)概况    (1)哈佛大学哲学系现有教师21人,其中访问教授7人,教师流动性较大,每年有一定的变化.以下为现任教师:Richard Moran(系主任 ...

  7. Thenao tutorial – indexing

    Theano和numpy一样,支持基本的下标取值方法和高级的下标取值方法. 因为theano中没有boolean类型,所以不支持boolean类型的masks. # head file support ...

  8. 【循序渐进学Python】2. Python中的序列——列表和元组

    序列概览 在Python中有六种内建的序列:列表.元组.字符串.Unicode字符串.buffer对象和xrange对象.在这里暂时只讨论列表和元组.列表和元组的主要区别在于:列表可以修改,元组(不可 ...

  9. Python列表,元组,字典,序列,引用

    1.列表 # Filename: using_list.py # This is my shopping list shoplist=["apple", "mango&q ...

随机推荐

  1. Linux服务器安装python3.6

    CentOS 7上默认安装的python版本是2.7.5,系统自带的旧版本python被系统很多其他软件环境依赖,因此不能卸载原Python,直接选择Python3.6.5进行全新安装. 1 安装Py ...

  2. redis性能优化——生产中实际遇到的问题排查总结

    背景 redis-K,V数据库,因其高性能的操作性和支持丰富的数据结构,目前大量被用于衔接应用层和关系数据库中间的缓存层.随着使用的场景越来越多,和数据量快速的递增,在生产环境中经常会遇到相关的性能瓶 ...

  3. selenium(4)-针对键盘的操作

    有哪些键盘操作 删除键 空格键 制表键 回退键 回车键 全选 复制 剪切 粘贴 F1-F12 ......其实就是所有键盘都能模拟,包括alt.shift.insert.delete.home等等等. ...

  4. 数据库事务(1)----- JDBC事务与JTA事务

    数据库事务(一)- JDBC事务与JTA事务 本文主要对JDBC事务与JTA事务做一个简单介绍. 1. 数据库事务概念 一个数据库事务通常包含对数据库进行读或写的一个操作序列.它的存在包含有以下两个目 ...

  5. ODBC 常见数据源配置整理

    目录 1. 简介 1.1 ODBC和JDBC 1.2 ODBC配置工具 1.3 ODBC 数据源连接配置 2. MySQL 数据源配置 2.1 配置步骤 2.2 链接参数配置 3. SQLServer ...

  6. java之FTP上传下载

    import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import ...

  7. js的原型和原型链

    总结: 1.每一个函数都有一个prototype属性,默认指向object空对象(原型对象), 每一个原型对象都有一个constructor属性,指向函数对象. eg: Person函数:     P ...

  8. Vue数据更新页面没有更新问题总结

    Vue数据更新页面没有更新问题总结 1. Vue无法检测实例别创建时不存在于data中的property 原因: 由于Vue会在初始化实例时对property执行getter/setter转化,所以p ...

  9. 入门大数据---HDFS-HA搭建

    一.简述 上一篇了解了Zookeeper和HDFS的一些概念,今天就带大家从头到尾搭建一下,其中遇到的一些坑也顺便记录下. 1.1 搭建的拓扑图如下: 1.2 部署环境:Centos3.1,java1 ...

  10. 如何在linux下安装tomcat服务器

    linux作为现在比较主流的服务器操作系统,使用的机器广泛,安全稳定.tomcat作为应用容器当然可以有linux版本的tomcat.在linux上安装tomcat的方式也很简单,只需要运行脚本基本配 ...