SQL Server 统计信息(Statistics)-概念,原理,应用,维护
前言:统计信息作为sql server优化器生成执行计划的重要参考,需要数据库开发人员,数据库管理员对其有一定的理解,从而合理高效的应用,管理.
第一部分 概念
统计信息(statistics):描述某个(些)栏位,索引的数据分布情况.优化器用其评估生成高效执行计划.
密度(density):一个比率值,显示在一个(组)列中有多少唯一值.(实际应用中值越小越好)
Density = 1 / Number of distinct values for column(s)
直方图(histogram):将数据分割成不同的段(steps),用于描述,记录每段数据分布的具体情况(抽样创建).最多分为200 steps
DBCC show_statistics(object_name,Column_name)
Header(信息头)包含统计信息一系列元数据
Density(密度)包含列(列组)的密度信息及平均列(组)长度
Histogram(直方图)包含直方图描述信息.
Histogram(直方图)
RANGE_HI_KEY:直方图列(多列情况为首列记录)段的上限值.列值就是键值
RANGE_ROWS:其相应列值位于此段(不包含上限)的行得数量(估计值)
EQ_ROWS:等于其列值上限值的行数
DISTINCT_RANGE_ROWS: RANGE_ROWS中的非重复值数量
AVG_RANGE_ROWS:直方图段内值得平均行数(不包括上限)
DISTINCT_RANGE_ROWS > 0则为RANGE_ROWS / DISTINCT_RANGE_ROWS
第二部分 原理,应用
统计信息更新
统计信息可以人工维护更新或是由优化器在确认执行计划有效时依据之一:重编译阈值(recompilation threshold/RT)来决定统计信息是否过期而执行更新.
触发条件
当创建的表为空表时,添加一条数据则更新
当表数据小于500行时,记录更新标识(Modification Counters)大于500更新
当表数据大于500行时,记录更新标识大于500且20%行数变化(rowcnt)
注:临时表表很小(0行或者小于6行).6次变更触发更新.
表变量无统计信息
关于记录更新标识(Modification Counters)
Rowmodctr sql2000及之前使用.记录在sys.sysindexes中.
注:此参数虽然高版本依赖其使用,但微软目前仍维护此参数变化可作为参考
colmodctr sql2005及以后使用记录在sys.sysrscols. rcmodified中(需DAC访问)
此外DMV sys.system_internals_partition_columns的modified_count同样记录
Colmodctr(无需DAC)但不提供向上兼容.目前sql2012依然支持!
Colmodctr记录规则:
Insert 每添加一行所有列 Colmodctr+1=Colmodctr
Delete 每删除一行所有列Colmodctr+1=Colmodctr
Update 每修改一行 更新目标列Colmodctr+1=Colmodctr(sql2008+)
Sql2005更新目标列
当修改列为NOKEY columns时Colmodctr+1=Colmodctr
当修改列为KEY columns时Colmodctr+2=Colmodctr
Bulk Insert 与N Rows Insert类似
Truncate table 与N Rows delete类似
注: Modification Counters非事务(如当插入1000条数据,然后rollback. Colmodctr会加1000)
过滤统计信息(filtered statistics)触发更新为整体数据区间而非过滤区间.一旦创建需人工维护
优化器应用统计信息.
优化器如何应用统计信息是一个比较复杂的方式.Sql Server在各版本之间应用方式甚至不尽相同.这里只做简单介绍.
优化器使用Statistics”偏好” 优先考虑最新的,Full Scan的统计信息
简单介绍下等式单谓词预估.
dbcc show_statistics('votes','IX_MultiColumn1')
select * from votes where topic_id=40
当谓词命中边界值时预估行数为EQ_ROWS
select * from votes where topic_id=10000
当谓词值在某个区间内,非命中边界值,预估值为AVG_Range_ROWS.即9042至16234间的所有谓词键值预估均为2.482208
declare @topic_id int
set @topic_id =1000
select * from votes where topic_id=@topic_id
当谓词为变量形式时,优化器不知道参数值.将采用 密度*行数的形式预估.
即topic_id=@topic_id 为0.000004936151*1943794=9.59486
第三部分 维护
查看统计信息
sp_autostats 'votesbak'---查看统计信息更新信息
sp_helpstats 'votesbak','all' ---查看统计信息对应列/键值
dbcc show_statistics('votes','IX_MultiColumn1')—查看特定统计信息的详细内容
统计信息相关设置
AUTO_CREATE_STATISTICS ----自动创建统计信息
AUTO_UPDATE_STATISTICS ---自动更新统计信息
AUTO_UPDATE_STATISTICS_ASYNC --自动异步更新统计信息(优化器会用旧的统计信息,而不重编译,立即执行.)
例子:
ALTER DATABASE [BitautoReview2] SET AUTO_UPDATE_STATISTICS_ASYNC ON
Trace Flag 2371 弹性根据条件更新统计信息
统计信息操作
Create Statistics --创建统计信息
Update Statistics --更新统计信息
Drop Statistics --删除统计信息
维护统计信息时可选择样本量来进行创建,更新
update statistics [votes](IX_MultiColumn1) with fullscan--手动更新指定索引的统计信息(一般针对特定统计信息问题时使用全扫描.更新时间较长可能影响性能)
UPDATE STATISTICS Votes WITH SAMPLE 10 Percent;-----手动更新全表统计信息,样本采样10%(一般针对更新整个对象时使用,样本量与精确程度依环境而定)
UPDATE STATISTICS votes WITH ROWCOUNT =1000000,PAGECOUNT=100000---指定更新行数/页数(一般用于模拟当表数据量变得巨大时,优化器将采用何种执行计划)
统计信息最佳实践
AUTO_CREATE_STATISTICS , AUTO_UPDATE_STATISTICS一般无特殊应用自动打开.
AUTO_UPDATE_STATISTICS_ASYNC当触发更新的表巨大,统计信息更新会明显影响当前性能,且旧的统计信息对原有更新无明显影响时应设置为ON
Trace flag 2371根据相应环境设置
由表变量造成的因无统计信息而使执行计划糟糕的情况用临时表代替
只读库(Readonly)配置前应创建相应统计信息
尽量避免变量,使用PROC传参形式,当使用动态SQL时用exec sp_executesql形式
过滤统计信息应人为维护
表达式(CTE)再参与Join的操作后,可能因执行逻辑无法获取准确统计信息,当出现此问题时用临时表或重写等方式代替
当数据倾斜很大,造成参数嗅探等问题时,应创建过滤统计信息(过滤索引),或是用query Hint,重写逻辑处理等方式处理.
SQL Server 统计信息(Statistics)-概念,原理,应用,维护的更多相关文章
- 全废话SQL Server统计信息(2)——统计信息基础
接上文:http://blog.csdn.net/dba_huangzj/article/details/52835958 我想在大地上画满窗子,让所有习惯黑暗的眼睛都习惯光明--顾城<我是一个 ...
- SQL Server统计信息:问题和解决方式
在网上看到一篇介绍使用统计信息出现的问题已经解决方式,感觉写的很全面. 在自己看的过程中顺便做了翻译. 因为本人英文水平有限,可能中间有一些错误. 假设有哪里有问题欢迎大家批评指正.建议英文好的直接看 ...
- 全废话SQL Server统计信息(1)——统计信息简介
当心空无一物,它便无边无涯.树在.山在.大地在.岁月在.我在.你还要怎样更好的世界?--张晓风<我在> 为什么要写这个内容? 随着工作经历的积累,越来越感觉到,大量的关系型数据库的性能问题 ...
- SQL SERVER 统计信息概述(Statistics)
前言 查询优化器使用统计信息来创建可提高查询性能的查询计划,对于大多数查询,查询优化器已经为高质量查询计划生成必要的统计信息,但是在少数情况下,您需要创建附加的统计信息或者修改查询设计以得到最佳结果. ...
- SQL Server 统计信息的创建与更新
前期准备: 普通表.临时表:它两会有统计信息. 表变量: 不会有统计信息. ---------------------------------------------------- ...
- SQL Server 统计信息更新时采样百分比对数据预估准确性的影响
为什么要写统计信息 最近看到园子里有人写统计信息,楼主也来凑热闹. 话说经常做数据库的,尤其是做开发的或者优化的,统计信息造成的性能问题应该说是司空见惯. 当然解决办法也并非一成不变,“一招鲜吃遍天” ...
- SQL Server 统计信息
SELECT * FROM SYS.stats _WA_Sys_00000009_00000062:统计对象的名称.不同的机器名称不同,自动创建的统计信息都以_WA_Sys开头,00000009表示的 ...
- SQL Server统计信息偏差影响表联结方式案例浅析
我们知道数据库中的统计信息的准确性是非常重要的.它会影响执行计划.一直想写一篇关于统计信息影响执行计划的相关博客,但是都卡在如何构造一个合适的例子上,所以一直拖着没有写.巧合,最近在生产环境中遇到 ...
- SQL Server 统计信息对查询的影响
优化器根据开消确定选择哪个执行计划,开消又与行数统计信息有关,默认情况下统计信息是在优化的过程中自动生成的. 一旦列被标记为需要统计信息,查询优化器就会查找该列以有的统计信息,如果以有一个统计信息,下 ...
随机推荐
- Win32 Debug & Release
今天帮汤老师调试程序,他生成的程序不能运行,怀疑子程序之间编译顺序的问题:我试了之后,也出现同样的问题,但是把Win32 Debug 换成Win32 Release却可以运行了. 网上搜索了下,在CV ...
- Jiu Yuan Wants to Eat(树链剖分+线段树延迟标记)
Jiu Yuan Wants to Eat https://nanti.jisuanke.com/t/31714 You ye Jiu yuan is the daughter of the Grea ...
- docker在centos和Ubuntu的安装
CentOS: http://blog.csdn.net/wuapeng/article/details/51728614 rpm -Uvh http://www.elrepo.org/elrepo- ...
- TZOJ 1242 求出前m大的数(预处理)
描述 给定一个包含N(N<=3000)个正整数的序列,每个数不超过5000,对它们两两相加得到的N*(N-1)/2个和,求出其中前M大的数(M<=10000)并按从大到小的顺序排列. 输入 ...
- tomcat用虚拟目录方式发布项目与manager页面配置
conf/Catalina/localhost:指定项目的配置信息 1.添加:ROOT.xml 听见Context节点: <Context docBase="/usr/local/to ...
- CString 作为参数执行都不执行
static int LoadUsbSDK(CString curpath ) win10系统下 CString 函数加载dll直接跳过 加载dll最好不要带参数
- 中介者模式(QQ聊天室我觉得是个很生动的例子简单易懂)
设计模式之中介者模式(Mediator) 一.初识中介者模式 那些年,我们一起上过的大学,班级里有班长,有团书记.想一想如果没有QQ这种通讯工具的话,那么班长或者团支书该怎样下达消息呢??同时,班级上 ...
- 2018.10.08 NOIP模拟 斐波那契(贪心+hash/map)
传送门 签到题. 显然是可以贪心分组的,也就是尽量跟当前的分成一组. 这时我们需要判断a[l]+a[r],a[l+1]+a[r]...a[r−1]+a[r]a[l]+a[r],a[l+1]+a[r]. ...
- 2018.07.31洛谷P1552 [APIO2012]派遣(可并堆)
传送门 貌似是个可并堆的模板题,笔者懒得写左偏堆了,直接随机堆水过.实际上这题就是维护一个可合并的大根堆一直从叶子合并到根,如果堆中所有数的和超过了上限就一直弹直到所有数的和不超过上限为止,最后对于当 ...
- 2018.07.10NOIP模拟 Knapsack(单调队列优化dp)
Knapsack 题目背景 SOURCE:NOIP2016-RZZ-4 T2 题目描述 有 n 个物品,第 i 个物品的重量为 ai . 设 f(i,j,k,l,m) 为满足以下约束的物品集合数量: ...