人人都是 DBA(VIII)SQL Server 页存储结构
当在 SQL Server 数据库中创建一张表时,会在多张系统基础表中插入所创建表的信息,用于管理该表。通过目录视图 sys.tables, sys.columns, sys.indexes 可以查看新建的表的元数据信息。
下面使用创建 Customer 表的过程作为示例。
USE [TEST]
GO DROP TABLE [dbo].[Customer]
GO CREATE TABLE [dbo].[Customer](
[ID] [int] NOT NULL,
[Name] [varchar](50) NOT NULL,
[Address] [varchar](100) NULL,
[Phone] [varchar](100) NULL
)
GO
select * from sys.tables where [name] = 'Customer';
select * from sys.columns where object_id = (select object_id from sys.tables where [name] = 'Customer');
select * from sys.indexes where object_id = (select object_id from sys.tables where [name] = 'Customer');

如果一张表没有聚集索引(Clustered Index),则数据本身没有结构,这样的表称为堆(Heap)。sys.indexes 中堆的 index_id 为 0,可以看到 Customer 表没有建立任何索引,所以 index_id 为 0,并且 type_desc 为 HEAP。
堆中的数据没有任何结构,当有新的数据行插入时,SQL Server 会寻找空闲的可用空间直接插入。存储数据的数据页之间也没有连接关系,不会形成一个链表。

如果为表建立上非聚集索引(Non-Clustered Index),则 index_id 从 2 开始增长。1 的位置始终留给聚集索引(Clustered Index)。
CREATE NONCLUSTERED INDEX [IX_Customer_Name] ON [dbo].[Customer] ([Name]);

ALTER TABLE [dbo].[Customer] ADD CONSTRAINT [PK_Customer] PRIMARY KEY CLUSTERED ([ID]);

SQL Server 在构成 Primary Key 约束的列上创建一个唯一索引,如果不明确指定,则默认该索引类型是唯一聚集索引。建立 Primary Key 后,可以在 sys.key_constraints 视图中查看主键信息。
select * from sys.check_constraints
select * from sys.default_constraints
select * from sys.key_constraints
select * from sys.foreign_keys

当为表建立聚集索引后,表内的数据会重构成树状结构,也就是使用 B 树形式进行存储。

SQL Server 数据库的每张表和索引都可以存储在多个分区上,sys.partitions 视图为堆或索引的每个分区包含一行数据。每个堆或索引都至少有一个分区,即使没有专门进行分区。
select * from sys.partitions where object_id = (select object_id from sys.tables where [name] = 'Customer');

SQL Server 用于描述某个分区上某张表或索引子集的术语是 hobt,代表 Heap Or B-Tree,即堆或 B 树,发音读作 "hobbit"。所以上图中可以看到存在一列为 hobt_id,使得 partition_id 和 hobt_id 形成 一对一的关系,实际上这两列总是具有相同的值。
分区上可以存储 3 种类型的数据页:
- 行内数据页(In-Row Data Pages)
- 行溢出页(Row-Overflow Data Pages)
- LOB 数据页(LOB Data Pages)

一个分区下的一种数据页类型的一组页面称为分配单元(Allocation Unit),可以使用 sys.allocation_units 视图来查看。
SELECT object_name(object_id) AS [name]
,partition_id
,partition_number AS pnum
,rows
,allocation_unit_id AS au_id
,type_desc AS page_type_desc
,total_pages AS pages
FROM sys.partitions p
JOIN sys.allocation_units a ON p.partition_id = a.container_id
WHERE object_id = OBJECT_ID('dbo.Customer');

如果行的长度超过了最大值 8060 字节,那么行的数据会被存放到行溢出页中。如果行中存在 LOB 类型的字段,则会使用 LOB 数据页存储。
ALTER TABLE [dbo].[Customer] ADD [OrderDescription] varchar(8000);
ALTER TABLE [dbo].[Customer] ADD [OrderDetails] text;

对表添加聚集索引不会修改 sys.allocation_units 中的行数,但会修改 partition_id,因为创建聚集索引会导致表在系统内重建。添加非聚集索引则会至少添加一行记录以跟踪该索引。
ALTER TABLE [dbo].[Customer] ADD CONSTRAINT [PK_Customer] PRIMARY KEY CLUSTERED ([ID]);
CREATE NONCLUSTERED INDEX [IX_Customer_Name] ON [dbo].[Customer] ([Name]);
SELECT convert(CHAR(8), object_name(i.object_id)) AS table_name
,i.NAME AS index_name
,i.index_id
,i.type_desc AS index_type
,partition_id
,partition_number AS pnum
,rows
,allocation_unit_id AS au_id
,a.type_desc AS page_type_desc
,total_pages AS pages
FROM sys.indexes i
JOIN sys.partitions p ON i.object_id = p.object_id
AND i.index_id = p.index_id
JOIN sys.allocation_units a ON p.partition_id = a.container_id
WHERE i.object_id = object_id('dbo.Customer');

可以通过 DMV 视图查询索引状况。
SELECT *
FROM sys.dm_db_index_physical_stats(DB_ID('TEST'), OBJECT_ID(N'dbo.Customer'), NULL, NULL, 'DETAILED');

SQL Server 中的数据页具有 8KB(8192 Bytes)的固定长度,每个数据页由 3 部分组成:
- 页头(Page Header)
- 数据行(Data Rows)
- 行偏移数组(Row Offset Array)

页头(Page Header)占了 96 字节长度。向 Customer 表插入条数据看看。
INSERT INTO [dbo].[Customer] (
[ID]
,[Name]
,[Address]
,[Phone]
)
VALUES (
1
,'Dennis Gao'
,'Beijing Haidian'
,''
)
GO
使用 sys.fn_dblog 查询事务日志,获取新插入的 Page 相关信息。
SELECT [Current LSN]
,[Operation]
,[Context]
,[Transaction ID]
,[Log Record Length]
,[Previous LSN]
,[AllocUnitId]
,[AllocUnitName]
,[Page ID]
,[Slot ID]
,[Xact ID]
FROM sys.fn_dblog(NULL, NULL)

发现 LOP_INSERT_ROWS 操作对应的 Page ID 为 0001:0000008e,翻译成 10 进制为 1:142。也就是文件号为 1,页编号为 142。实际上,每个页都会通过一个 6 Bytes 的值来表示,其中包含 2 Bytes 的文件 ID 和 4 Bytes 的页编号。
由于我们只插入了 1 条数据,可以使用 sys.system_internals_allocation_units 目录视图来查看首页地址。以 sys.system_internals_ 开头的目录视图是还未公开的目录视图。sys.system_internals_allocation_units 比 sys.allocation_units 视图多 3 个字段:first_page, root_page, first_iam_page。
SELECT object_name(object_id) AS [name]
,rows
,type_desc AS page_type_desc
,total_pages AS pages
,first_page
,root_page
,first_iam_page
FROM sys.partitions p
JOIN sys.system_internals_allocation_units a ON p.partition_id = a.container_id
WHERE object_id = object_id('dbo.Customer');

这里的 first_page = 0x8E0000000100 十六进制结果可以翻译为 00 01 共 2 字节的文件号,和 00 00 00 8E 共 4 字节的页编号。与上面的 0001:0000008e 正好匹配。
不过,这么计算基本上乐趣全无了,可以使用如下的 SQL 进行直接翻译。
DECLARE @page_num BINARY (6) = 0x8E0000000100; SELECT (convert(VARCHAR(2), (
convert(INT, substring(@page_num, 6, 1)) * power(2, 8))
+ (convert(INT, substring(@page_num, 5, 1))))
+ ':'
+ convert(VARCHAR(11), (
convert(INT, substring(@page_num, 4, 1)) * power(2, 24))
+ (convert(INT, substring(@page_num, 3, 1)) * power(2, 16))
+ (convert(INT, substring(@page_num, 2, 1)) * power(2, 8))
+ (convert(INT, substring(@page_num, 1, 1))
))) AS page_number;

另一种确认页编号的方式是使用 DBCC IND 命令,用于查找表中的所有的页。
DBCC IND([TEST], 'dbo.Customer', -1)
GO

实际上,还有一种查询页编号的方式是使用内部函数 sys.fn_PhysLocFormatter,不过很遗憾,这个函数的返回结果存在问题,不准确。
SELECT %%physloc%%, sys.fn_PhysLocFormatter (%%physloc%%) AS RID, * FROM dbo.Customer;
DBCC TRACEON(3604, -1)
GO DBCC PAGE([TEST], 1, 142, 1)
GO
DBCC PAGE 的输出结果分成 4 个部分:BUFFER,PAGE HEADER,DATA,OFFSET TABLE。
- BUFFER 部分显示给定页面的缓冲区信息。
- PAGE HEADER 部分显示 Page 页头信息。
- DATA 部分显示 Page 中存放的记录信息。
- OFFSET TABLE 部分显示行偏移数组信息。
PAGE: (1:142) BUFFER: BUF @0x000000027D0048C0 bpage = 0x0000000272292000 bhash = 0x0000000000000000 bpageno = (1:142)
bdbid = 7 breferences = 0 bcputicks = 0
bsampleCount = 0 bUse1 = 17332 bstat = 0x10b
blog = 0x15acc bnext = 0x0000000000000000 PAGE HEADER: Page @0x0000000272292000 m_pageId = (1:142) m_headerVersion = 1 m_type = 1
m_typeFlagBits = 0x0 m_level = 0 m_flagBits = 0x8000
m_objId (AllocUnitId.idObj) = 110 m_indexId (AllocUnitId.idInd) = 256
Metadata: AllocUnitId = 72057594045136896
Metadata: PartitionId = 72057594040287232 Metadata: IndexId = 0
Metadata: ObjectId = 1045578763 m_prevPage = (0:0) m_nextPage = (0:0)
pminlen = 8 m_slotCnt = 1 m_freeCnt = 8039
m_freeData = 151 m_reservedCnt = 0 m_lsn = (34:369:91)
m_xactReserved = 0 m_xdesId = (0:0) m_ghostRecCnt = 0
m_tornBits = 0 DB Frag ID = 1 Allocation Status GAM (1:2) = ALLOCATED SGAM (1:3) = ALLOCATED
PFS (1:1) = 0x61 MIXED_EXT ALLOCATED 50_PCT_FULL DIFF (1:6) = CHANGED
ML (1:7) = NOT MIN_LOGGED DATA: Slot 0, Offset 0x60, Length 55, DumpStyle BYTE Record Type = PRIMARY_RECORD Record Attributes = NULL_BITMAP VARIABLE_COLUMNS
Record Size = 55
Memory Dump @0x000000000B7DA060 0000000000000000: 30000800 01000000 04000003 001d002c 00370044 0..............,.7.D
0000000000000014: 656e6e69 73204761 6f426569 6a696e67 20486169 ennis GaoBeijing Hai
0000000000000028: 6469616e 31383836 36363637 373737 dian18866667777 OFFSET TABLE: Row - Offset
0 (0x0) - 96 (0x60)
| 字段名 |
描述 |
|
m_pageId |
页在文件中的位置序号。(1:142) 表示文件 1 中第 142 页。 |
|
m_headerVersion |
Page Header 的定义版本。目前一直为 1。 |
|
m_type |
页类型。 1 - 数据页,存放堆或聚集索引的页节点数据等。 2 - 索引页,存放聚集索引的内部节点数据,或者所有的非聚集索引数据。 3 - Text Mix Page 4 - Text Tree Page 7 - Sort Page,存放排序操作的中间结果。 8 - GAM Page 9 - SGAM Page 10 - IAM Page,IAM = Index Allocation Map。 11 - PFS Page 13 - Boot Page 15 - File Header Page 16 - Diff Map Page 17 - ML Map Page 18 - A page is deallocated by DBCC CHECKDB during a repair. 19 - Temporary page for DBCC INDEXDEFRAG 20 - Page pre-allocated as part of a bulk load operation. |
|
m_level |
代表页在 B 树上的层。 B 树中叶节点 Level 为 0,向上累加。 |
|
m_objId |
关联的对象 ID |
|
m_indexId |
关联的索引 ID |
|
m_prevPage |
指向前一页的指针。 |
|
m_nextPage |
指向后一页的指针。 |
|
pminlen |
行的固定长度部分的字节数。 |
|
m_slotCnt |
该页上存放的记录行数。 |
|
m_freeCnt |
页上的可以用空间字节数。 |
|
m_freeData |
该页上第一个可用空间的字节偏移位置。 |
|
m_reservedCnt |
为活动事务保留的可用空间字节数量。 |
|
m_lsn |
最后一个更改页信息的操作的 Log Sequence Number 事务日志编号。 |
|
m_xactReserved |
最后更新 m_reservedCnt 字段的事务保留的可用空间的字节数。 |
|
m_xdesId |
最近更新 m_reservedCnt 字段的事务 ID。 |
|
m_ghostRecCnt |
Ghost 记录的数量。 |
|
m_tornBits |
Page Checksum |
Metadata 为前缀的字段不是 Page Header 中的内容,它们是 DBCC PAGE 的一些查询结果。
- Metadata: AllocUnitId = 72057594045136896
- Metadata: PartitionId = 72057594040287232
- Metadata: IndexId = 0
- Metadata: ObjectId = 1045578763
这与使用目录视图查询的结果一致。
SELECT convert(CHAR(8), object_name(i.object_id)) AS table_name
,i.object_id
,i.index_id
,partition_id
,partition_number AS pnum
,rows
,allocation_unit_id AS au_id
,total_pages AS pages
FROM sys.indexes i
JOIN sys.partitions p ON i.object_id = p.object_id
AND i.index_id = p.index_id
JOIN sys.allocation_units a ON p.partition_id = a.container_id
WHERE i.object_id = object_id('dbo.Customer');

我们发现 m_objId 和 m_indexId 两个字段的值没有在之前的查询中出现过:
- m_objId (AllocUnitId.idObj) = 110
- m_indexId (AllocUnitId.idInd) = 256
实际上这两个字段的值是计算出来的结果,计算规则:
- 将 m_indexId 向左移 48 位,记录为值 A;
- 将 m_objId 向左移 16 位,记录为值 B;
- AllocUnitId = A|B;(逻辑或)
例如,使用上面的页中的值,
- A = 256 << 48 = 72057594037927936
- B = 110 << 16 = 7208960
- A|B = 72057594045136896
可以使用如下 SQL 进行计算。
SELECT 256 * CONVERT(BIGINT, POWER(2.0, 48));
SELECT 110 * CONVERT(BIGINT, POWER(2.0, 16));
SELECT 256 * CONVERT(BIGINT, POWER(2.0, 48)) | 110 * CONVERT(BIGINT, POWER(2.0, 16));

那么,反向根据 AllocUnitId 求 m_objId 和 m_indexId 的方式和上面的规则正好相反:
- m_indexId = AllocUnitId >> 48
- m_objId = (AllocUnitId - (m_indexId << 48)) >> 16
可以使用下面的 SQL 语句进行计算。
DECLARE @alloc BIGINT = 72057594045136896;
DECLARE @index BIGINT; SELECT @index = CONVERT(BIGINT, CONVERT(FLOAT, @alloc) * (1 / POWER(2.0, 48))
); SELECT CONVERT(BIGINT, CONVERT(FLOAT, @alloc - (@index * CONVERT(BIGINT, POWER(2.0, 48)))) * (1 / POWER(2.0, 16))
) AS [m_objId]
,@index AS [m_indexId];
GO

DBCC PAGE 输出的 OFFSET TABLE 部分是一块 2 字节的条目块,其中每个条目指向着行数据页的起始位置。也就是,每一行数据都有一个 2 字节的条目在行偏移数组中。行偏移数组指向着页内数据的逻辑顺序。例如,对于一个聚集索引的表,SQL Server 会按照聚集索引的键的顺序对数据进行存储,这并不是说物理顺序就是按照键的顺序排列,而是在行偏移数组中的 slot 0 存放索引的第 1 个数据引用,slot 1 存放第 2 个数据引用,以此类推。这样,物理上数据就可以存放在任意位置了。
对于数据行存储的结构,可以用下图所示,包括存储固定长度字段数据和变长字段数据。

可以与 DBCC PAGE 输出的 DATA 数据段落进行数据对比分析,具体的内容较为复杂,这里就不详细展开了。
Slot 0, Offset 0x60, Length 55, DumpStyle BYTE Record Type = PRIMARY_RECORD Record Attributes = NULL_BITMAP VARIABLE_COLUMNS
Record Size = 55
Memory Dump @0x000000000B1DA060 0000000000000000: 30000800 01000000 04000003 001d002c 00370044 0..............,.7.D
0000000000000014: 656e6e69 73204761 6f426569 6a696e67 20486169 ennis GaoBeijing Hai
0000000000000028: 6469616e 31383836 36363637 373737 dian18866667777
由于每页有固定的 8K 字节的大小。每一个数据页中都包含多条数据记录,一页中能存储多少条记录则直接依赖于记录本身的大小。由于从磁盘读取数据时也是从磁道和柱面一次读取多个数据页,让后将数据页存放到内存缓冲区,所以如果每数据页可以存放更多的数据记录,则可以直接减少物理读的次数,而通过逻辑读来提高性能。
《人人都是 DBA》系列文章索引:
| 序号 |
名称 |
|
1 |
|
|
2 |
|
|
3 |
|
|
4 |
|
|
5 |
|
|
6 |
|
|
7 |
|
|
8 |
|
|
9 |
|
|
10 |
|
|
11 |
|
|
12 |
|
|
13 |
|
|
14 |
|
|
15 |
本系列文章《人人都是 DBA》由 Dennis Gao 发表自博客园个人技术博客,未经作者本人同意禁止任何形式的转载,任何自动或人为的爬虫转载或抄袭行为均为耍流氓。
人人都是 DBA(VIII)SQL Server 页存储结构的更多相关文章
- SQL SERVER大话存储结构(3)_数据行的行结构
一行数据是如何来存储的呢? 变长列与定长列,NULL与NOT NULL,实际是如何整理存放到 8k的数据页上呢? 对表格进行增减列,修改长度,添加默认值等DDL SQL ...
- SQL SERVER大话存储结构(4)_复合索引与包含索引
索引这块从存储结构来分,有2大类,聚集索引和非聚集索引,而非聚集索引在堆表或者在聚集索引表都会对其 键值有所影响,这块可以详细查看本系列第二篇文章:SQL SERVER大话存储结构 ...
- SQL SERVER大话存储结构(6)_数据库数据文件
数据库文件有两大类:数据文件跟日志文件,每一个数据库至少各有一个数据文件或者日志文件,数据文件用来存储数据,日志文件用来存储数据库的事务修改情况,可用于恢复数据库使用. 这里分 ...
- SQL SERVER大话存储结构(5)_SQL SERVER 事务日志解析
本系列上一篇博文链接:SQL SERVER大话存储结构(4)_复合索引与包含索引 1 基本介绍 每个数据库都具有事务日志,用于记录所有事物以及每个事物对数据库所作的操作. 日志的记录 ...
- SQL SERVER大话存储结构(1)_数据页类型及页面指令分析
如果转载,请注明博文来源: www.cnblogs.com/xinysu/ ,版权归 博客园 苏家小萝卜 所有.望各位支持! SQLServer的数据页大 ...
- SQL SERVER大话存储结构(2)_非聚集索引如何查找到行记录
如果转载,请注明博文来源: www.cnblogs.com/xinysu/ ,版权归 博客园 苏家小萝卜 所有.望各位支持! 1 行记录如何存储 这里引入两个 ...
- [转帖]真TM长的:SQL Server 2008存储结构——GAM和SGAM、PFS结构、IAM结构、DCM&BCM
谈到GAM和SGAM,我们不得不从数据库的页和区说起. https://blog.csdn.net/snowfoxmonitor/article/details/49991015 一个数据库由用户定义 ...
- 人人都是 DBA(VI)SQL Server 事务日志
SQL Server 的数据库引擎通过事务服务(Transaction Services)提供事务的 ACID 属性支持.ACID 属性包括: 原子性(Atomicity) 一致性(Consisten ...
- 人人都是 DBA(V)SQL Server 数据库文件
SQL Server 数据库安装后会包含 4 个默认系统数据库:master, model, msdb, tempdb. SELECT [name] ,database_id ,suser_sname ...
随机推荐
- TSuperEnumerator、TSuperAvlIterator、ObjectFindFirst
通过 ISuperObject.GetEnumerator 可获取一个 TSuperEnumerator 对象. TSuperEnumerator 主要有: MoveNext 方法.Current 属 ...
- iOS Xcode添加ios10.0的路径
/Applications/Xcode.app/Contents/Developer/Platforms/iPhoneOS.platform/DeviceSupport
- vs2015 command prompt here
网上搜的很多方法都不能用,比如:http://app.paraesthesia.com/CommandPromptHere/ 主要是都搞错了注册表路径,写成了: HKCR,Directory\Shel ...
- 如何将C++代码逆向生成类图 (VS2013)
1. 将代码添加到VS2013工程中: 2. 切换到"类视图": 3. 选中项目 右键"视图"->"查看类图". 如果项目文件太多的话 ...
- [php-src]窥探Php内核中的数组与面向对象
内容均以php5.6.14为例. 扩展中定义一个类有以下四步: #1. 声明一个存储类信息的指针. zend_class_entry *errs_ce; #2. 定义方法的参数信息,类的方法实现. Z ...
- which type of VS files should be committed into a version control system
which type of VS files should be committed into a version control system? aps, no: last resource edi ...
- SAAS在中国市场的发展前景
发展现状 2008年1-7月软件行业实现收入4199.1亿元,同比增长32.4%.2008年第一季度,业务管理软件市场总量达16.31亿元,同比增长17.8%.面对成本的上升,企业选择了向信息化要效率 ...
- C++builder中使用TScrollBox 以后,让scrollBox相应鼠标的上下滑动
1.在窗口的事件里搜索 mouseWheel的方法 2.在.cpp文件里实现下面的代码 void __fastcall TForm1::mouseWheel(TObject *Sender, TShi ...
- 搜索引擎 ElasticSearch 之 步步为营2 【基础概念】
在正式学习 ElasticSearch 之前,首先看一下 ElasticSearch 中的基本概念. 这些概念将在以后的章节中出现多次,所以花15分钟理解一下是非常值得的. 英文好的同学,请直接移步官 ...
- RabbitMQ 记录
RabbitMQ 中文文档 : http://rabbitmq.mr-ping.com/description.html 官方教程译文: 一 http://blog.csdn.net/xiaoxian ...