解剖SQLSERVER 第十三篇 Integers在行压缩和页压缩里的存储格式揭秘（译）

http://improve.dk/the-anatomy-of-row-amp-page-compressed-integers/

当解决OrcaMDF对行压缩的支持的时候，视图解析整数的时候遇到了一些挑战。

和正常的未压缩整数存储不同的是这些都是可变长度--这意味着1个整数的值50只占用1个字节，而不是通常的4个字节。

这些不是新功能了，大家可以看一下vardecimal他被存储为可变长度。然而不同的是两者存储在磁盘上的数据的方式。

注意虽然我只是实现行压缩，他跟页面压缩中使用的行压缩是一样的，并没有区别

大家可以看一下《深入解析SQL Server 2008 笔记》里面有行压缩和页压缩的详细解释

Tinyint
Tinyint在压缩后和压缩前基本是一样的（tinyint：从0到255的整数数据，存储大小为 1 字节）只有一个例外情况，当数值是0的时候如果开启了行压缩将不占用任何字节，

如果是非压缩存储将会存储0x0，并且占用一个字节。所有的整形类型（tinyint，smallint，int，bigint）对于0这个数值都是同等对待，数值由压缩行元数据进行描述并且不存储任何值

Smallint
让我们开始通过观察正常的未压缩的smallint数值，对于 -2，-1，1，2这些值的存储，0不会存储任何东西。注意，所有这些值会准确的存放在磁盘上，在这种情况下他们使用小字节序来存储

-2    =    0xFEFF

-1    =    0xFFFF

1    =    0x0100

2    =    0x0200

Little-Endian

从1，2 这两个值开始，他们很直接很简单的转换为decimal和你想要的实际数值。然而，-1有点不一样，显示0xFEFF 将他转换为decimal是65.535 --我们能存储的最大的无符号整形值是2个字节，

SQLSERVER对于一个smallint 的范围是–32768 to 32767

计算实际值依赖于所使用的整数溢出。看看下面的C#代码片段:

unchecked

{

    Console.WriteLine( + (short));

    Console.WriteLine( + (short));

    Console.WriteLine( + (short));

    // ...

    Console.WriteLine( + (short));

    Console.WriteLine( + (short));

}

输出如下：

-

-

-

-

如果我们这样计算 0+有符号short的最大值，那么最大值就是有符号短整型 32767，很明显负数就是-32767，

然而，如果我们这样计算 0+32.768=32768，那么就会超出short的范围，我们将最高位翻转变成负数 -32768 却不会溢出。

因为这些数都是常数，编译器不允许溢出--除非我们将代码封装在uncheck ｛｝section里面

你可能曾经听过虚构的符号位。基本上它的最高位被用于指示一个数是正数还是负数。

从上面的例子应该很明显的显示符号位不是那么特别--通过查询这个符号位决定一个给定的数的符号。看一下当溢出的时候符号位会怎样

    =    0b0111111111111111

-    =    0b1000000000000000

-    =    0b1000000000000001

对于由于太大而引起溢出的数字，最高位“sign bit”需要进行设置。这不神奇,它只是用来引起溢出。

那么，我们有一些背景知识知道一个常规的非压缩integers 是如何存储的。现在看一下那些同样数值的smallint 是如何存储在行压缩表里的

-    =    0x7E

-    =    0x7F

    =    0x81

    =    0x82

让我们尝试将这些值转换为decimal，我做如下转换

-    =    0x7E    =    - +

-    =    0x7F    =    - +

    =    0x81    =    - +

    =    0x82    =    - +

很明显，这些值会以另一种方式进行存储。最明显的不同是我们现在只使用一个字节--由于变成了可变长度存储。当我们解析这些值的时候，我们需要简单的看一下这些数字的字节存储。如果只使用一个字节，我们知道这表示0到255（对于tinyint来讲）或者对于smallint 数值是 -128到127 。当smallint 存储的那个值范围在-128到127 就会使用一个字节来存储

如果我们使用相同的方法，我们明显会获得错误的结果。1 <> 0 + 129 诀窍是在本例中将存储的值作为无符号整数，然后最小值作为偏移量
而不是使用0来作为偏移，我们将使用有符号的一个字节最小值-128 作为偏移

-    =    0x7E    =    - +

-    =    0x7F    =    - +

    =    0x81    =    - +

    =    0x82    =    - +

这意味着一旦我们超出有符号的1个字节的范围我们将需要用2个字节来存储，对吗？

一个非常重要的区别是,非压缩值会永远使用小字节序来存储，然而使用了行压缩的整数值却使用大字节序来存储！
所以，他们不只使用不同的偏移值，而使用不同的字节序。但是最终的结果都是相同的，不过计算方式却有很大的不同

Int 和 bigint
一旦我找到字节序的规律和行压缩整型值的数值架构，int和bigint的实现就很简单了。和其他类型一样，他们也是可变长度的所以你有可能会碰到5字节长的bigint值和1字节长的int值。下面是SqlBigInt 类型的主要解析代码

switch (value.Length)

{

    case :

        return ;

    case :

        return (long)(- + value[]);

    case :

        return (long)(- + BitConverter.ToUInt16(new[] { value[], value[] }, ));

    case :

        return (long)(- + BitConverter.ToUInt32(new byte[] { value[], value[], value[],  }, ));

    case :

        return (long)(- + BitConverter.ToUInt32(new[] { value[], value[], value[], value[] }, ));

    case :

        return (long)(- + BitConverter.ToInt64(new byte[] { value[], value[], value[], value[], value[], , ,  }, ));

    case :

        return (long)(- + BitConverter.ToInt64(new byte[] { value[], value[], value[], value[], value[], value[], ,  }, ));

    case :

        return (long)(- + BitConverter.ToInt64(new byte[] { value[], value[], value[], value[], value[], value[], value[],  }, ));

    case :

        return (long)(- + BitConverter.ToInt64(new[] { value[], value[], value[], value[], value[], value[], value[], value[] }, ));

    default:

        throw new ArgumentException("Invalid value length: " + value.Length);

}

可变长度的值是一个包含字节数据的字节数组存储在磁盘上。如果长度是0，没有东西存储因此我们知道他的值为0。

对于每一个剩余的有效长度，简单的使用最小的显示值作为偏移并且添加上存储的值

对于非压缩值我们可以使用BitConverter 类直接将输入值使用系统字节序转为期望值，对于大多数的英特尔和AMD系统，一般都是小字节序（意味着OrcaMDF 不会运行在一个大字节序的系统上）。然而，当压缩值使用大字节序进行压缩，我必须重新映射输入的数组为小端字节格式，并且在字节尾补上0 以便匹配short，int和long的大小

对于shorts和ints 我将无符号数值读取进来，因为这是我所感兴趣的。工作原理是将int 和uint强制转换为long值。我不能对long类型做同样的事情因为没有其他数据类型比long 更大了。对于long的最大值为9.223.372.036.854.775.807，在磁盘里实际存储为0xFFFFFFFFFFFFFFFF。解析有符号long型使用BitConverter得出的结果 -1 由于会导致溢出。由于额外的负数溢出这有可能会导致出错

-9.223.372.036.854.775. + 0xFFFFFFFFFFFFFF =>

-9.223.372.036.854.775. + - =

9.223.372.036.854.775.

结论
通常我有很多的有趣的尝试通过执行一个select语句去找出数值在磁盘上以哪一个字节结束。
这不会花很长的时间去实现，技术内幕的书只是作为引导，还有很多东西需要我们深入挖掘

第十三篇完

解剖SQLSERVER 第十三篇 Integers在行压缩和页压缩里的存储格式揭秘（译）的更多相关文章

解剖SQLSERVER 第十七篇使用 OrcaMDF Corruptor 故意损坏数据库（译）
解剖SQLSERVER 第十七篇使用 OrcaMDF Corruptor 故意损坏数据库(译) http://improve.dk/corrupting-databases-purpose-usin ...
解剖SQLSERVER 第七篇 OrcaMDF 特性概述（译）
解剖SQLSERVER 第七篇 OrcaMDF 特性概述(译) http://improve.dk/orcamdf-feature-recap/ 时间过得真快,这已经过了大概四个月了自从我最初介绍我 ...
解剖SQLSERVER 第八篇 OrcaMDF 现在支持多数据文件的数据库（译）
解剖SQLSERVER 第八篇 OrcaMDF 现在支持多数据文件的数据库(译) http://improve.dk/orcamdf-now-supports-databases-with-mult ...
解剖SQLSERVER 第十篇 OrcaMDF Studio 发布+ 特性重温（译）
解剖SQLSERVER 第十篇 OrcaMDF Studio 发布+ 特性重温(译) http://improve.dk/orcamdf-studio-release-feature-recap/ ...
解剖SQLSERVER 第十一篇对SQLSERVER的多个版本进行自动化测试（译）
解剖SQLSERVER 第十一篇对SQLSERVER的多个版本进行自动化测试(译) http://improve.dk/automated-testing-of-orcamdf-against ...
解剖SQLSERVER 第三篇数据类型的实现（译）
解剖SQLSERVER 第三篇数据类型的实现(译) http://improve.dk/implementing-data-types-in-orcamdf/ 实现对SQLSERVER数据类型的解 ...
解剖SQLSERVER 第四篇 OrcaMDF里对dates类型数据的解析（译）
解剖SQLSERVER 第四篇 OrcaMDF里对dates类型数据的解析(译) http://improve.dk/parsing-dates-in-orcamdf/ 在SQLSERVER里面有几 ...
解剖SQLSERVER 第五篇 OrcaMDF里读取Bits类型数据（译）
解剖SQLSERVER 第五篇 OrcaMDF里读取Bits类型数据(译) http://improve.dk/reading-bits-in-orcamdf/ Bits类型的存储跟SQLSERVE ...
解剖SQLSERVER 第六篇对OrcaMDF的系统测试里避免regressions（译）
解剖SQLSERVER 第六篇对OrcaMDF的系统测试里避免regressions (译) http://improve.dk/avoiding-regressions-in-orcamdf-b ...

随机推荐

angular报$injector / unpr的错误
原因:angular引用未定义的错误,因为JS代码压缩过后找不到申明的变量,,没在使用之前定义,且代码被压缩,则报错(变量压缩后会变成单个字母无法识别,需在引用前分别定义): 解决:angular.m ...
Visual Studio 实现编写一套.net代码，同时编译到多个平台，多版本的操作笔记
如题,把一套代码.NET代码.编译成多平台,多版本dll文件. 项目结构如图(Cvs文件读写开源组件 https://github.com/JoshClose/CsvHelper) 如上图.项目工程 ...
将三维空间的点按照座标排序（兼谈为std::sort写compare function的注意事项）
最近碰到这样一个问题:我们从文件里读入了一组三维空间的点,其中有些点的X,Y,Z座标只存在微小的差别,远小于我们后续数据处理的精度,可以认为它们是重复的.所以我们要把这些重复的点去掉.因为数据量不大, ...
Word论文写作如何实现公式居中、编号右对齐
第一步:插入表格在公式所在行居中插入一行三列的表格,具体操作为: a.设置行居中,快捷键Ctrl+E: b.插入->表格->3×1的表格: 2 第二步:修改表格属性新插入的表格三列等宽 ...
SqlBulkCopy 从bcp客户端收到一个对 colid 1 无效的列长度。
出现这个错误,大家都知道是因为字段长度超出了,但是这里需要注意的是,colid 1指的是数据库表的第1列,而不是C#中DataTable的第1列. 比如C#中DataTable的列顺序为{" ...
mysql解压缩安装（一）
MySQL安装文件分为两种,一种是msi格式的,一种是zip格式的.如果是msi格式的可以直接点击安装,按照它给出的安装提示进行安装(相信大家的英文可以看懂英文提示),一般MySQL将会安装在C:\P ...
Android自定义View的实现方法，带你一步步深入了解View(四)
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/17357967 不知不觉中,带你一步步深入了解View系列的文章已经写到第四篇了,回 ...
标题编辑 AndroidTagGroup
地址: https://github.com/2dxgujun/AndroidTagGroup
基于Django的web开发
github地址:https://github.com/shirleyandgithub/PythonWeb
Python垃圾回收机制
引用计数Python默认的垃圾收集机制是“引用计数”,每个对象维护了一个ob_ref字段.它的优点是机制简单,当新的引用指向该对象时,引用计数引用计数 Python默认的垃圾收集机制是“引用计数”, ...

解剖SQLSERVER 第十三篇 Integers在行压缩和页压缩里的存储格式揭秘（译）

解剖SQLSERVER 第十三篇 Integers在行压缩和页压缩里的存储格式揭秘（译）

解剖SQLSERVER 第十三篇 Integers在行压缩和页压缩里的存储格式揭秘（译）的更多相关文章

随机推荐

热门专题