列存储索引是好的！对于数据仓库和报表工作量，它们是真正的性能加速器。与聚集列存储结合，你会在常规行存储索引（聚集索引，非聚集索引）上获得巨大的压缩好处。而且创建聚集列存储索引非常简单：

CREATE CLUSTERED COLUMNSTORE INDEX ccsi ON TableName

GO

但这是你对聚集列存储需要知道的一切？并不是，如你在这篇文章会看到的……

什么是列存储段（ColumnStore Segments）？

在我各个研讨会和公共培训课程期间，我经常开玩笑：一旦你开释使用聚集列存储索引，你就不需要知道索引的更多信息。使用聚集列存储索引很太多的优点，它会带来巨大的性能提升：

更好的压缩
批处理模式执行
更少I/O，更好内存管理
段消除

如你从下例子看到的，在SQL Server里创建聚集列存储索引非常简单：

CREATE CLUSTERED COLUMNSTORE INDEX idx_ci ON FactOnlineSales

GO

你只需指定表名，没别的。甚至你不需要担心聚集键列，因为这个概念对列存储索引不适用。很简单，是不是？让我们在适当的地方用刚才的聚集索引运行一个简单的查询：

-- Segment Elimination doesn't work quite well, because

-- we have a lot of overlapping Segments.

SELECT

    DateKey,

    SUM(SalesAmount)

FROM FactOnlineSales_Temp

WHERE

    DateKey >= ''

    AND DateKey <= ''

GROUP BY

    DateKey

GO

这个查询非常快，因为对于查询执行，SQL Server可以使用聚集列存储索引。从STATISTICS IO输出也向你展示了，对于聚集列存储索引不需要很多LOB Logical Reads：

但那些段读取（Segment Read）和段跳过（Segment Skipped）度量呢？

你们也许知道列存储索引内部分成所谓的列存储段（ColumnStore Segments）。一个列存储段通常指定到特定的列和行组。一个行组包含近100万行。下图很好的展示了这个重要概念：

来源：https://www.microsoft.com/en-us/research/publication/enhancements-to-sql-server-column-stores/

什么是列存储段消除（ColumnStore Segment Elimination）？

这里最重要的是，对于每个列存储段，SQL Server内部存储了最小和最大的值。基于这些值，SQL Server可以进行所谓的段消除。段消除意味着SQL Server只读取包含请求数据的那些段（在访问列存储索引时）。你可以认为它是和分区消除一样得方式，在你和分区表打交道的时候。但这里的消除发生在列存储段级别。

如你在刚才的图片所见，在列存储索引访问期间SQL Server不能消除任何段，因为默认情况下，在列存储索引里你没有排列顺序。你数据的排列顺序取决于在执行计划里，在你创建列存储索引时，SQL Server如何读取数据：

如你所见，聚集列存储索引通过从最初包含数据的堆表创建。因此在聚集列存储索引里，你没有排列顺序，因此段消除不能很好为你工作。

如何改善情况？在你的数据里首先通过创建传统的行存储聚集索引来强制排序，然后修改它为聚集列存储索引！偶滴神啊……

-- Now we create a traditional RowStore Clustered Index to sort our

-- table data by the column "DateKey".

CREATE CLUSTERED INDEX idx_ci ON FactOnlineSales_Temp(DateKey)

GO

-- "Swap" the Clustered Index through a Clustered ColumnStore Index

CREATE CLUSTERED COLUMNSTORE INDEX idx_ci ON FactOnlineSales_Temp

WITH (DROP_EXISTING = ON)

GO

有了传统的聚集行存储索引就位，当你创建聚集列存储索引时，在执行计划里，查询优化器会引用这个索引：

作为副作用，在聚集列存储索引里，你现在应该有已排序的数据，段消除应该会很好处理：

-- Segment Elimination works better than previously, but still not perfectly.

SELECT

    DateKey,

    SUM(SalesAmount)

FROM FactOnlineSales_Temp

WHERE

    DateKey >= ''

    AND DateKey <= ''

GROUP BY

    DateKey

GO

但当你再次查看STATISTICS IO的输出，SQL Server还是需要读取很多段，只跳过其中几个：

但为什么SQL Server不能跳过所有的段而只跳过几个？问题存在于聚集列存储的创建。当你回头看刚才的执行计划，你会看到ColumnStore Index Insert (Clustered) 运算符是并行运行的——通过多个工作者线程。而且这些工作者线程再次破坏了聚集列存储索引里你数据的排序！你从聚集行存储索引里进行你的数据读取，然后聚集列索引的并行创建重排了你的数据……伤及无辜~~~

你只能通过使用MAXDOP为1的聚集列存储创建来解决这个问题：

CREATE CLUSTERED COLUMNSTORE INDEX idx_ci ON FactOnlineSales_Temp

WITH (DROP_EXISTING = ON, MAXDOP = 1)

GO

这听起来很糟糕，事实也如此！但这是唯一让你在列存储索引里阻止重排你数据的解决方法。当你接下来从聚集列存储数据读取后，你会看到SQL Server终于能跳过所有的段：

小结

聚集列存储索引很好——真的很好！但默认段消除不能很好进行，因为在你的聚集列存储里没有预定义的排序。因此在你调优你的列存储查询时，你要确保段消除可以正常进行。而且有时候你甚至需要通过使用MAXDOP 1来阻止你的数据排序……

感谢关注！

原文链接：

https://www.sqlpassion.at/archive/2017/01/30/columnstore-segment-elimination

列存储段消除（ColumnStore Segment Elimination）的更多相关文章

浅谈MSSQL2012中的列存储索引（columnstore indexes）
列存储索引为MSSQL2012版本中引进的一个新特性.所有版本MSSQL中标准查询处理模式采用一次一行模型,操作符每次处理一行数据.列存储索引中增加了一种新的基于向量的查询执行功能,通过这种功能,操作 ...
SQL Server 2012 列存储索引分析（翻译）
一.概述列存储索引是SQL Server 2012中为提高数据查询的性能而引入的一个新特性,顾名思义,数据以列的方式存储在页中,不同于聚集索引.非聚集索引及堆表等以行为单位的方式存储.因为它并不要求 ...
SQL Server 2016：内存列存储索引
作者 Jonathan Allen,译者谢丽 SQL Server 2016的一项新特性是可以在“内存优化表(Memory Optimized Table)”上添加“列存储索引(Columnstor ...
SQL Server 列存储索引第二篇：设计
列存储索引可以是聚集的,也可以是非聚集的,用户可以在表上创建聚集的列存储索引(Clustered Columnstore Index)或非聚集的列存储索引(Nonclustered Columnsto ...
SQL Server ->> ColumnStore Index（列存储索引）
Columnstored index是SQL Server 2012后加入的重大特性,数据不再以heap或者B Tree的形式存储(row level)存储在每一个数据库文件的页里面,而是以列为单位存 ...
SQL Server 列存储索引概述
第一次接触ColumnStore是在2017年,数据库环境是SQL Server 2012,Microsoft开始在SQL Server 2012中推广列存储索引,到现在的SQL Server 201 ...
SQL Server 2014聚集列存储索引
转发请注明引用和原文博客(http://www.cnblogs.com/wenBlog) 简介之前已经写过两篇介绍列存储索引的文章,但是只有非聚集列存储索引,今天再来简单介绍一下聚集的列存储索引,也 ...
SQL Server 列存储索引强化
SQL Server 列存储索引强化 SQL Server 列存储索引强化 1. 概述 2.背景 2.1 索引存储 2.2 缓存和I/O 2.3 Batch处理方式 3 聚集索引 3.1 提高索引创建 ...
在SQL Server 2014里可更新的列存储索引（Updateable Column Store Indexes）
传统的关系数据库服务引擎往往并不是对超大量数据进行分析计算的最佳平台,为此,SQL Server中开发了分析服务引擎去对大笔数据进行分析计算.当然,对于数据的存放平台SQL Server数据库引擎而言 ...

随机推荐

POJ 2653 Pick-up sticks
计算几何,判断线段相交注意题目中的一句话:You may assume that there are no more than 1000 top sticks. 我认为是没有描述清楚的,如果不是每次 ...
Android编程中的5种数据存储方式
Android编程中的5种数据存储方式作者:牛奶.不加糖字体:[增加减小] 类型:转载时间:2015-12-03我要评论这篇文章主要介绍了Android编程中的5种数据存储方式,结合实例形式 ...
Mariadb galera 群集
环境: CentOS 7 x64 * 3 IP : 192.168.0.100 IP : 192.168.0.101 IP : 192.168.0.102 配置mariadb YUM 源 htt ...
控制流之if
if语句if语句用来检验一个条件, 如果条件为真,我们运行一块语句(称为 if-块 ), 否则我们处理另外一块语句(称为 else-块 ). else 从句是可选的. ~~~~~~~~~~~~~~ ...
Sequence Classification
Natural Language Processing with Python Charpter 6.1 import nltk from nltk.corpus import brown def p ...
(简单) POJ 3076 Sudoku , DLX+精确覆盖。
Description A Sudoku grid is a 16x16 grid of cells grouped in sixteen 4x4 squares, where some cells ...
[Unity Physics] Physics - Raycast
Class Variables类变量 gravity The gravity applied to all rigid bodies in the scene.场景中应用到所有刚性物体的重力. min ...
DIV 和 SPAN 区别
DIV 和 SPAN 元素最大的特点是默认都没有对元素内的对象进行任何格式化渲染.主要用于应用样式表(共同点). 两者最明显的区别在于DIV是块元素,而SPAN是行内元素(也译作内嵌元素). 详解:1 ...
命名空间“Microsoft.AspNet”中不存在类型或命名空间名“Mvc”
问题: 错误 CS0234 命名空间"Microsoft.AspNet"中不存在类型或命名空间名"Mvc"(是否缺少程序集引用?) 解决方案: 打开文件夹 Us ...
医院his系统数据库恢复
医院IT系统的重要性堪比金融行业,“银行系统宕机,老百姓不能取钱:医院HIS系统宕机,老百姓不能看病”, 医院信息系统称得上是迄今为止企业级信息系统中最复杂的一类. 某医院HIS系统SQL2008数 ...

列存储段消除（ColumnStore Segment Elimination）

什么是列存储段（ColumnStore Segments）？

什么是列存储段消除（ColumnStore Segment Elimination）？

小结

原文链接：

列存储段消除（ColumnStore Segment Elimination）的更多相关文章

随机推荐

热门专题