SQL Server 索引结构

索引是数据库的基础，只有先搞明白索引的结构，才能搞明白索引运行的逻辑

本文通过索引表、数据页、执行计划、IO统计、B+Tree 来尽可能的介绍 SQL 语句中 WHERE 部分，和 SELECT 部分的运行逻辑

名词介绍

B+Tree：一种数据结构

数据页：数据库保存数据的最小单位。(SQL Server一个数据页的大小是 8K，一个表中所有的数据都被保存到一个个的数据页中)

索引组织表：大白话一张表有聚集索引就是索引组织表（把表中的数据页以 B+Tree 的方式组织起来）

索引表：一个索引对应一张索引表，索引表中每条数据都对应一张数据页。

通过 DBCC IND(数据库, 表名, 索引Id) 命令可以获取到表中指定索引的索引表信息

通过 DBCC PAGE(数据库, 1, 数据页Id, 3) 命令可以获取到某个数据页中的数据

B+Tree结构

准备数据

DROP TABLE Org_User

-- 创建测试表

CREATE TABLE Org_User(Id INT,UserName NVARCHAR(50),Age INT)

-- 创建聚集索引和非聚集索引

CREATE CLUSTERED INDEX Org_User_Id ON Org_User(Id)

CREATE NONCLUSTERED INDEX Org_User_Name ON Org_User(UserName)

CREATE TABLE #Temp(Id INT)

INSERT INTO #Temp VALUES(1)

INSERT INTO #Temp VALUES(2)

INSERT INTO #Temp VALUES(3)

INSERT INTO #Temp VALUES(4)

INSERT INTO #Temp VALUES(5)

INSERT INTO #Temp VALUES(6)

INSERT INTO #Temp VALUES(7)

INSERT INTO #Temp VALUES(8)

INSERT INTO #Temp VALUES(9)

INSERT INTO #Temp VALUES(10)

-- 批量插入10W条数据

INSERT  INTO dbo.Org_User

SELECT T1.Id, 'UserName_' + CONVERT(NVARCHAR(20), T1.Id) AS 'UserName', T1.Id + 10 AS 'Age' FROM

(

    SELECT TOP 100000 Id = ROW_NUMBER() OVER (ORDER BY T1.Id)

    FROM #Temp AS T1

    CROSS JOIN #Temp AS T2

    CROSS JOIN #Temp AS T3

    CROSS JOIN #Temp AS T4

    CROSS JOIN #Temp AS T5

    ORDER BY T1.Id

) AS T1

SELECT name, index_id,type_desc FROM SYS.INDEXES WHERE object_id = OBJECT_ID('Org_User');

SELECT  index_id ,

        index_type_desc ,

        index_depth ,

        page_count

FROM    sys.dm_db_index_physical_stats(DB_ID('Core2022'), OBJECT_ID('Org_User'), NULL, NULL, NULL)

在 sys.dm_db_index_physical_stats 这张系统表中

index_depth 表示索引的深度（对应上图B+Tree就是树的高度）

page_cout 表示索引数据页的数量（对应上图B+Tree就是叶子节点的数量）

这里获取索引信息主要是为了 index_id

索引表

DBCC IND(Core2022, Org_User, 1)

DROP TABLE dbcc_ind

-- 创建一张表用来保存索引表信息

CREATE TABLE dbcc_ind

(

    PageFID NUMERIC(20),

    PagePID NUMERIC(20),

    IAMFID NUMERIC(20),

    IAMPID NUMERIC(20),

    ObjectID NUMERIC(20),

    IndexID NUMERIC(20),

    PartitionNumber NUMERIC(20),

    PartitionID NUMERIC(20),

    iam_chain_type VARCHAR(100),

    PageType NUMERIC(20),

    IndexLevel NUMERIC(20),

    NextPageFID NUMERIC(20),

    NextPagePID NUMERIC(20),

    PrevPageFID NUMERIC(20),

    PrevPagePID NUMERIC(20)

)

--DROP PROC proc_dbcc_ind

-- 创建存储过程

CREATE PROC proc_dbcc_ind

AS

DBCC IND(Core2022,Org_User,1)

-- 把索引表中的数据批量插入到 dbcc_ind 中

INSERT INTO dbcc_ind

EXEC proc_dbcc_ind

SELECT

    PagePID, -- 改行数据对应的数据页

    IndexLevel, -- 表示改行数据的级别 0叶子节点，1分支节点，=2根节点，仅限该Demo

    NextPagePID, -- 当前节点的后继节点 （后面的那个数据页）

    PrevPagePID -- 当前节点的前驱节点 （前面的那个数据页）

FROM dbcc_ind

SELECT

    PagePID,

    IndexLevel,

    NextPagePID,

    PrevPagePID

FROM dbcc_ind

WHERE IndexLevel = 0

ORDER BY NextPagePID

对 DBCC IND 中的数据进行一个总结

通过观察叶子节点的数据可以得到，每个节点都有一个前驱指针和后继指针，构成了一个双向链表

通过 IndexLevel 这个字段区分根节点、分支节点、叶子节点

通过 NextPagePID 和 PrevPagePID 两个字段把相同深度的节点构成了一个双向链表

数据页

DBCC TRACEON(3604) — 打开跟踪标记，不打开的话 DBCC PAGE 只能查看分支节点中的数据，不能查看叶子节点中的数据

根节点

分支节点

叶子节点

非聚集索引的叶子节点

对索引表和根节点对应的数据页，分支节点对应的数据页，叶子节点对应的数据页进行总结

聚集索引

　　叶子节点中保存的是 Org_User 表中的数据

　　根节点和分支节点中保存的是指向下一级节点的条件

　　索引表中同级的节点都有一个前驱和后继指针，这两个指针把同级的节点构建成了一个双向链表

非聚集索引

　　根节点和分支节点与聚集索引一直，都是指向下一级节点的条件

　　叶子节点有区别包含创建非聚集索引是指定的Key、指向该行数据实际地址的Key、保证索引唯一的Key

　　　　UserName 就是创建索引时指定的，如果创建时指定多个，这里也会有多个

　　　　Id 这个是指向这行数据真实地址的指针表结构不同这个Key也不一样

　　　　　　索引组织表：这个Key就是创建聚集索引时指定的 Key

　　　　　　堆表：就值这个行数据所在堆表的地址

　　　　UNIQUIFIER 如果创建索引时指定该索引时唯一索引，那么这里就不会有这个字段，否则就会有这个字段用来区分重复的数据

通过索引表，找到 Id = 66666 的这行数据所在的数据页　　　　

对上图进行解释

拿着 66666 从根节点指向的数据页开始找

66666 > 36017 所以就跳转到 491 这个数据页

66511 < 66666 ≤ 66669 所以就跳转到 2755 这个数据页

因为 2755 这个数据页已经是叶子节点了，直接在里面搜索 66666

就找到了这一行数据

SET STATISTICS IO ON

SELECT * FROM Org_User WHERE Id = 66666

回表

因为这条SQL返回的字段是 Select *

非聚集索引里面没有 Age 这个字段

因此根据 UserName_66666 从非聚集索引中找到这条数据之后，根据 Id 到聚集索引里面在查一次，找到 Age 这个字段

覆盖索引

Select Id,UserName 非聚集索引里面这两个字段都有，所以就没有必要在查询聚集索引了

举一个例子

SET STATISTICS IO ON

SELECT * FROM [Org_User] WHERE Id >= 1 AND Id <= 10

SELECT * FROM [Org_User] WHERE Id IN (1,2,3,4,5,6,7,8,9,10)

-- 上面这两个SQL只有在 Id 为 Int 类型的时候才等价，在等价的前提下

-- 第一个SQL的效率要远超于第二个SQL

/*

SET STATISTICS IO ON (开启后输出的内容)

(10 行受影响)

表 'Org_User'。扫描计数 1，逻辑读取 3 次，物理读取 0 次，预读 0 次，lob 逻辑读取 0 次，lob 物理读取 0 次，lob 预读 0 次。

(10 行受影响)

表 'Org_User'。扫描计数 10，逻辑读取 30 次，物理读取 0 次，预读 0 次，lob 逻辑读取 0 次，lob 物理读取 0 次，lob 预读 0 次。

很明显 第一个SQL只有3次逻辑读，而第二个有30次逻辑读

*/

只有搞明白了索引运行的逻辑，结合执行计划等工具，才能搞明白什么情况下那些SQL更好

谣言：

　　COUNT(*) 和 COUNT(列) 谁快，谁慢

　　首先这两种写法都不等价 COUNT(*) 是所有的数据 COUNT(列) NULL值不参与运算，所以如果COUNT的某一列中包含了NULL值算出来的数据可能就有问题了

　　查询速度

　　　　COUNT(*) 更块

　　　　COUNT(列) 会受偏移量和字段中数据的大小影响

　　　　　　（通过 SET STATISTICS TIME ON 可以非常简单的得出结论）

　　SQL语句大表写前面，小表写后面

　　　　当前数据库都会对SQL进行优化，所以无所谓谁在前，谁在后

　　IN 与 EXISTS 谁好谁坏

　　　　当前数据库都会对SQL进行优化，所以无所谓谁好，谁坏

　　这些坑人的谣言还有很多，有些在老版本的数据库是对的，在当前的数据库中已经过时了。

SQL Server 索引结构的更多相关文章

SQL Server 索引结构及其使用（一）
转载:SQL Server 索引结构及其使用(一) 作者:freedk 一.深入浅出理解索引结构实际上,您可以把索引理解为一种特殊的目录.微软的SQL SERVER提供了两种索引:聚集索引(clus ...
SQL Server 索引结构及其使用（一）[转]
SQL Server 索引结构及其使用(一) 作者:freedk 一.深入浅出理解索引结构实际上,您可以把索引理解为一种特殊的目录.微软的SQL SERVER提供了两种索引:聚集索引(cluster ...
SQL Server 索引结构及其使用（二）
作者:freedk 一.深入浅出理解索引结构改善SQL语句很多人不知道SQL语句在SQL SERVER中是如何执行的,他们担心自己所写的SQL语句会被SQL SERVER误解.比如: select ...
【译】SQL Server索引进阶第八篇：唯一索引
原文:[译]SQL Server索引进阶第八篇:唯一索引索引设计是数据库设计中比较重要的一个环节,对数据库的性能其中至关重要的作用,但是索引的设计却又不是那么容易的事情,性能也不是那么轻易就 ...
SQL Server索引 (原理、存储)聚集索引、非聚集索引、堆 <第一篇>
一.存储结构在SQL Server中,有许多不同的可用排列规则选项. 二进制:按字符的数字表示形式排序(ASCII码中,用数字32表示空格,用68表示字母"D").因为所有内容都 ...
SQL Server索引设计 <第五篇>
SQL Server索引的设计主要考虑因素如下: 检查WHERE条件和连接条件列: 使用窄索引: 检查列的选择性: 检查列的数据类型: 考虑列顺序: 考虑索引类型(聚集索引OR非聚集索引): 一.检查 ...
SQL Server索引进阶：第十级，索引内部结构
原文地址: Stairway to SQL Server Indexes: Level 10,Index Internal Structure 本文是SQL Server索引进阶系列(Stairway ...
SQL Server索引进阶：第八级，唯一索引
原文地址: Stairway to SQL Server Indexes: Level 8,Unique Indexes 本文是SQL Server索引进阶系列(Stairway to SQL Ser ...
SQL Server索引进阶：第七级，过滤的索引
原文地址: Stairway to SQL Server Indexes: Level 7,Filtered Indexes 本文是SQL Server索引进阶系列(Stairway to SQL S ...

随机推荐

从AAB文件生成APK文件
开头先说方法 1.下载 bundletool 2.开始生成 java -jar bundletool.jar build-apks --bundle=[aab文件路径(例如:C:\Users\Admi ...
FastDFS文件的上传和下载
一.FastDFS概述: FastDFS是一个开源的轻量级分布式文件系统,他对文件进行管理,功能包括:文件存储.文件同步.文件访问(文件上传.下载)等,解决了大容量存储和负载均衡的问题,高度追求高性能 ...
OSI/RM体系结构
OSI/RM体系结构是第一个标准化的计算机网络体系结构. 它是针对广域网通信(也就是不同网络之间的通信)进行设计的,将整个网络通信的功能划分为七个层次,由低到高分别是物理层(Physical L ...
《剑指offer》面试题36. 二叉搜索树与双向链表
问题描述输入一棵二叉搜索树,将该二叉搜索树转换成一个排序的循环双向链表.要求不能创建任何新的节点,只能调整树中节点指针的指向. 为了让您更好地理解问题,以下面的二叉搜索树为例: 我们希望将这个二叉搜 ...
C++ 基本类型的大小
C++的基本类型: char bool (unsigned) short (int) (unsigned) int (unsigned) long (int) (unsigned) long long ...
加深对AQS原理的理解示例二：自己设计一个同步工具，同一时刻最多只有两个线程能访问，超过线程将被阻塞
/** *@Desc 设计一个同步工具,同一时刻最多只有两个线程能访问,超过线程将被阻塞<br> * 思路分析: * 1.共享锁两个线程及以内能成功获取到锁 * 2. *@Author ...
大厂面试：一个四年多经验程序员的BAT面经（字节、阿里、腾讯）
前言上次写了篇欢聚时代的面经,公众号后台有些读者反馈说看的意犹未尽,希望我尽快更新其他大厂的面经,这里先说声抱歉,不是我太懒,而是项目组刚好有个活动要赶在春节前上线,所以这几天经常加班,只能工作之余 ...
yum搭建私有仓库远程版
目录一:yum安装 1.简介 1.安装 2.卸载 3.更新 4.yum安装的生命周期二:yum搭建私有仓库(本地版) 1.下载必须的软件包(准备配置) 2.创建软件仓库 3.下载对应的软件 4.初 ...
linux文件详细说明与inode编号
目录一:文件类型概念说明 1.文件详细信息详解 2.inode编号一:文件类型概念说明 1.文件详细信息详解文件详细信息编号 ls - lhi /etc/ 134319695 -rw------ ...
db2服务器linux的cache过高原因
在线上db2数据库服务器,使用的linux操作系统(RHEL,centos),当db2数据库运行一段时间之后,操作系统的物理内存就趋近于0,同时系统的cache暴增,但是use却不高,下面是正常使用 ...

SQL Server 索引结构

SQL Server 索引结构的更多相关文章

随机推荐

热门专题