解剖SQLSERVER 第十三篇 Integers在行压缩和页压缩里的存储格式揭秘(译)
解剖SQLSERVER 第十三篇 Integers在行压缩和页压缩里的存储格式揭秘(译)
http://improve.dk/the-anatomy-of-row-amp-page-compressed-integers/
当解决OrcaMDF对行压缩的支持的时候,视图解析整数的时候遇到了一些挑战。
和正常的未压缩整数存储不同的是这些都是可变长度--这意味着1个整数的值50只占用1个字节,而不是通常的4个字节。
这些不是新功能了,大家可以看一下vardecimal他被存储为可变长度。然而不同的是两者存储在磁盘上的数据的方式。
注意虽然我只是实现行压缩,他跟页面压缩中使用的行压缩是一样的,并没有区别
大家可以看一下《深入解析SQL Server 2008 笔记》里面有行压缩和页压缩的详细解释
Tinyint
Tinyint在压缩后和压缩前基本是一样的(tinyint:从0到255的整数数据,存储大小为 1 字节)只有一个例外情况,当数值是0的时候如果开启了行压缩将不占用任何字节,
如果是非压缩存储将会存储0x0,并且占用一个字节。所有的整形类型(tinyint,smallint,int,bigint)对于0这个数值都是同等对待,数值由压缩行元数据进行描述并且不存储任何值
Smallint
让我们开始通过观察正常的未压缩的smallint数值, 对于 -2,-1,1,2这些值的存储,0不会存储任何东西。注意,所有这些值会准确的存放在磁盘上,在这种情况下他们使用小字节序来存储
-2 = 0xFEFF
-1 = 0xFFFF
1 = 0x0100
2 = 0x0200
从1,2 这两个值开始,他们很直接很简单的转换为decimal和你想要的实际数值。然而,-1有点不一样,显示0xFEFF 将他转换为decimal是65.535 --我们能存储的最大的无符号整形值是2个字节,
SQLSERVER对于一个smallint 的范围是–32768 to 32767
计算实际值依赖于所使用的整数溢出。看看下面的C#代码片段:
unchecked
{
Console.WriteLine( + (short));
Console.WriteLine( + (short));
Console.WriteLine( + (short));
// ...
Console.WriteLine( + (short));
Console.WriteLine( + (short));
}
输出如下:
-
-
-
-
如果我们这样计算 0+有符号short的最大值,那么最大值就是有符号短整型 32767,很明显负数就是-32767,
然而,如果我们这样计算 0+32.768=32768,那么就会超出short的范围,我们将最高位翻转变成负数 -32768 却不会溢出。
因为这些数都是常数,编译器不允许溢出--除非我们将代码封装在uncheck {}section里面
你可能曾经听过虚构的符号位。基本上它的最高位被用于指示一个数是正数还是负数。
从上面的例子应该很明显的显示符号位不是那么特别--通过查询这个符号位决定一个给定的数的符号。看一下当溢出的时候符号位会怎样
= 0b0111111111111111
- = 0b1000000000000000
- = 0b1000000000000001
对于由于太大而引起溢出的数字,最高位“sign bit”需要进行设置。这不神奇,它只是用来引起溢出。
那么,我们有一些背景知识知道一个常规的非压缩integers 是如何存储的。现在看一下那些同样数值的smallint 是如何存储在行压缩表里的
- = 0x7E
- = 0x7F
= 0x81
= 0x82
让我们尝试将这些值转换为decimal,我做如下转换
- = 0x7E = - +
- = 0x7F = - +
= 0x81 = - +
= 0x82 = - +
很明显,这些值会以另一种方式进行存储。最明显的不同是我们现在只使用一个字节--由于变成了可变长度存储。当我们解析这些值的时候,我们需要简单的看一下这些数字的字节存储。如果只使用一个字节,我们知道这表示0到255(对于tinyint来讲) 或者对于smallint 数值是 -128到127 。当smallint 存储的那个值范围在-128到127 就会使用一个字节来存储
如果我们使用相同的方法,我们明显会获得错误的结果 。1 <> 0 + 129 诀窍是在本例中将存储的值作为无符号整数,然后最小值作为偏移量
而不是使用0来作为偏移,我们将使用有符号 的一个字节最小值-128 作为偏移
- = 0x7E = - +
- = 0x7F = - +
= 0x81 = - +
= 0x82 = - +
这意味着一旦我们超出有符号 的1个字节的范围 我们将需要用2个字节来存储,对吗?

一个非常重要的区别是,非压缩值会永远使用小字节序来存储,然而使用了行压缩的整数值却使用大字节序来存储!
所以,他们不只使用不同的偏移值,而使用不同的字节序。但是最终的结果都是相同的,不过计算方式却有很大的不同
Int 和 bigint
一旦我找到字节序的规律和行压缩整型值的数值架构,int和bigint的实现就很简单了。和其他类型一样,他们也是可变长度的所以你有可能会碰到5字节长的bigint值和1字节长的int值。下面是SqlBigInt 类型的主要解析代码
switch (value.Length)
{
case :
return ; case :
return (long)(- + value[]); case :
return (long)(- + BitConverter.ToUInt16(new[] { value[], value[] }, )); case :
return (long)(- + BitConverter.ToUInt32(new byte[] { value[], value[], value[], }, )); case :
return (long)(- + BitConverter.ToUInt32(new[] { value[], value[], value[], value[] }, )); case :
return (long)(- + BitConverter.ToInt64(new byte[] { value[], value[], value[], value[], value[], , , }, )); case :
return (long)(- + BitConverter.ToInt64(new byte[] { value[], value[], value[], value[], value[], value[], , }, )); case :
return (long)(- + BitConverter.ToInt64(new byte[] { value[], value[], value[], value[], value[], value[], value[], }, )); case :
return (long)(- + BitConverter.ToInt64(new[] { value[], value[], value[], value[], value[], value[], value[], value[] }, )); default:
throw new ArgumentException("Invalid value length: " + value.Length);
}
可变长度的值是一个包含字节数据的字节数组存储在磁盘上。如果长度是0,没有东西存储因此我们知道他的值为0。
对于每一个剩余的有效长度,简单的使用最小的显示值作为偏移并且添加上存储的值
对于非压缩值我们可以使用BitConverter 类直接将输入值使用系统字节序转为期望值,对于大多数的英特尔和AMD系统,一般都是小字节序(意味着OrcaMDF 不会运行在一个大字节序的系统上)。然而,当压缩值使用大字节序进行压缩,我必须重新映射输入的数组为小端字节格式,并且在字节尾补上0 以便匹配short,int和long的大小
对于shorts和ints 我将无符号数值读取进来,因为这是我所感兴趣的。工作原理是将int 和uint强制转换为long值。我不能对long类型做同样的事情因为没有其他数据类型比long 更大了。对于long的最大值为9.223.372.036.854.775.807,在磁盘里实际存储为0xFFFFFFFFFFFFFFFF。解析有符号long型使用BitConverter得出的结果 -1 由于会导致溢出。由于额外的负数溢出这有可能会导致出错
-9.223.372.036.854.775. + 0xFFFFFFFFFFFFFF =>
-9.223.372.036.854.775. + - =
9.223.372.036.854.775.
结论
通常我有很多的有趣的尝试通过执行一个select语句去找出数值在磁盘上以哪一个字节结束。
这不会花很长的时间去实现,技术内幕的书只是作为引导,还有很多东西需要我们深入挖掘
第十三篇完
解剖SQLSERVER 第十三篇 Integers在行压缩和页压缩里的存储格式揭秘(译)的更多相关文章
- 解剖SQLSERVER 第十七篇 使用 OrcaMDF Corruptor 故意损坏数据库(译)
解剖SQLSERVER 第十七篇 使用 OrcaMDF Corruptor 故意损坏数据库(译) http://improve.dk/corrupting-databases-purpose-usin ...
- 解剖SQLSERVER 第七篇 OrcaMDF 特性概述(译)
解剖SQLSERVER 第七篇 OrcaMDF 特性概述(译) http://improve.dk/orcamdf-feature-recap/ 时间过得真快,这已经过了大概四个月了自从我最初介绍我 ...
- 解剖SQLSERVER 第八篇 OrcaMDF 现在支持多数据文件的数据库(译)
解剖SQLSERVER 第八篇 OrcaMDF 现在支持多数据文件的数据库(译) http://improve.dk/orcamdf-now-supports-databases-with-mult ...
- 解剖SQLSERVER 第十篇 OrcaMDF Studio 发布+ 特性重温(译)
解剖SQLSERVER 第十篇 OrcaMDF Studio 发布+ 特性重温(译) http://improve.dk/orcamdf-studio-release-feature-recap/ ...
- 解剖SQLSERVER 第十一篇 对SQLSERVER的多个版本进行自动化测试(译)
解剖SQLSERVER 第十一篇 对SQLSERVER的多个版本进行自动化测试(译) http://improve.dk/automated-testing-of-orcamdf-against ...
- 解剖SQLSERVER 第三篇 数据类型的实现(译)
解剖SQLSERVER 第三篇 数据类型的实现(译) http://improve.dk/implementing-data-types-in-orcamdf/ 实现对SQLSERVER数据类型的解 ...
- 解剖SQLSERVER 第四篇 OrcaMDF里对dates类型数据的解析(译)
解剖SQLSERVER 第四篇 OrcaMDF里对dates类型数据的解析(译) http://improve.dk/parsing-dates-in-orcamdf/ 在SQLSERVER里面有几 ...
- 解剖SQLSERVER 第五篇 OrcaMDF里读取Bits类型数据(译)
解剖SQLSERVER 第五篇 OrcaMDF里读取Bits类型数据(译) http://improve.dk/reading-bits-in-orcamdf/ Bits类型的存储跟SQLSERVE ...
- 解剖SQLSERVER 第六篇 对OrcaMDF的系统测试里避免regressions(译)
解剖SQLSERVER 第六篇 对OrcaMDF的系统测试里避免regressions (译) http://improve.dk/avoiding-regressions-in-orcamdf-b ...
随机推荐
- lvs+keepalived+nginx实现高性能负载均衡集群
一.为什么要使用负载均衡技术? 1.系统高可用性 2. 系统可扩展性 3. 负载均衡能力 LVS+keepalived能很好的实现以上的要求,LVS提供负载均衡,keepalived提供健康检查, ...
- 图的割点 | | jzoj【P1230】 | | gdoi | |备用交换机
写在前面:我真的不知道图的割点是什么.... 看见ftp图论专题里面有个dfnlow的一个文档,于是怀着好奇的心情打开了这个罪恶的word文档,,然后就开始漫长的P1230的征讨战.... 图的割点是 ...
- ASPNET 导出EXCEL表
其实网上有很多关于Excel的例子,但是不是很好,他们的代码没有很全,读的起来还很晦涩.经过这几天的摸索,终于可以完成我想要导出报表Excel的效果了.下面是我的效果图. 一.前台的页面图 GridV ...
- java: R文件重复
导入eclipse工程到intellij里面, 然后出现各种错误, xxx.R文件重复, 各种资源id在R文件中找不到, 后来发现是intellij默认将整个项目以及gen文件夹作为源代码目录了, 在 ...
- hbuilder中如何使用egit上传项目
刚开始使用时,我也是遵照网上的教程来的,其实就那一篇教程,到处被转载,怎么搜都是那一个,实际操作发现有点小不同,所以实际截图给大家一个参考. 1.首先肯定是进入hbuilder下载egit插件啦.(工 ...
- vs2015 附加到进程找不到w3wp.exe
vs2015 附加到进程找不到w3wp.exe 解决办法: 浏览器打开你访问的IIS地址后就出现了~!!!!!!!!!
- Windows结构化异常
不错的总结: http://hi.baidu.com/wangxvfeng101/item/518f6efdab4e5616ff35820e http://www.vckbase.com/index. ...
- MVC3在IIS7.5发布(部署)报403.14错误的解决办法
MVC3在IIS7.5发布(部署)报403.14错误的解决办法 错误现象: 报403.14 forbidden错误 web服务器被配置为不列出此目录的内容. 解决办法: 检查站点的处理程序映射 ...
- Max Sum
Description Given a sequence a[1],a[2],a[3]......a[n], your job is to calculate the max sum of a sub ...
- ORA-01919
看到这个错误提示再明白不过了,Oracle中某个角色不存在. 不小心把Oracle中的几个重要角色删除掉了(dba,connect,resource),Plsql只能用DBA权限进去,普通权限进不去, ...