在SQL Server中,窗体被定义为用户指定的一组行。

之所以要提出窗体这个概念,由于这种基于窗体或分区的又一次计算在实际工作应用范围比較广泛。比如。假设我们要对每一个班级中的学生按成绩进行排序,在对第1个班级排序完毕后,对第2个班级进行排序时编号须要又一次从1開始。在SQL Server 2005之前。像这种排序方式实现起来是比較烦琐的。能够说,对新窗体又一次启动计算是窗体计算的重要特点。

为支持窗体计算,SQLServer提供了OVER子句和窗体函数。

窗体函数在MSDN Library中被翻译为开窗函数。

尽管“开窗函数”理解起来并不如“窗体函数”easy,可是它描写叙述了数据窗体变化后又一次启动计算这样一个动作,所以我们尊重MSDN Library中的翻译。在兴许的介绍中将使用“开窗函数”这一名词。

窗体计算的两个主要应用就是对每组内的数据进行排序和聚合计算。因此,开窗函数也被分为排名开窗函数和聚合开窗函数。排名开窗函数如ROW_NUMBER( )、RANK( )。聚合开窗函数如AVG( )、SUM等。

进行排名计算时,OVER子句的语法格式例如以下:

OVER ( [ PARTITION BY value_expression , ... [ n ]]

<ORDER BY_Clause> )

PARTITION BY value_expression

指定对对应FROM子句生成的行集进行分区所根据的列。

开窗函数分别应用于每一个分区,并为每一个分区又一次启动计算。value_expression仅仅能引用通过FROM子句可用的列。不能引用选择列表中的表达式或别名。value_expression能够是列表达式、标量子查询、标量函数或用户定义的变量。

<ORDER BY 子句>

指定应用排名开窗函数的排序顺序。仅仅能引用通过FROM子句可用的列。可是不同通过指定整数来表示选择列表中列名称或列别名的位置。

以下我们将以表9-1所看到的的Students表为例,进行介绍。像Students表这种数据结构设计。相对于数据库存储而言是比較合理的,由于我们不可能为每一个班级创建一个表,但确实又存在像为每一个班级中的学生成绩进行排序或为学生编号这种实际需求。SQL Server的窗体计算技术就有效攻克了二者之间的矛盾。

从SQL Server2005開始,提供了4个排名函数。各自是:ROW_NUMBER( )、RANK( )、DENSE_RANK( )和NTILE( )。它们能够为分区中的每一行返回一个排名值。ROW_NUMBER( )用于按行进行编号,RANK( )和DENSE_RANK( )用于按指定顺序排名,NTILE( )用于对数据进行分区。

9.2.1 ROW_NUMBER( )

ROW_NUMBER( )返回分区内行的序列号,每一个分区的第一行从1開始。比如,以下的语句指定按ClassID进行分区。并按StudentName进行排序编号。查询结果如表9-2所看到的。

SELECT ClassID, StudentName, Achievement,

ROW_NUMBER() OVER(PARTITION BY ClassID ORDER BY StudentName) ASRowNumber

FROM Students;

表9-2                                                     按班级分区、按学生姓名进行编号

ClassID

StudentName

Achievement

RowNumber

1

Andrew

99.00

1

1

Grace

99.00

2

1

Janet

75.00

3

1

Margaret

89.00

4

2

Michael

72.00

1

2

Robert

91.00

2

2

Steven

86.00

3

3

Ann

94.00

1

3

Ina

80.00

2

3

Ken

92.00

3

3

Laura

75.00

4

为了理解SQL Server中排名函数的工作原理,我们来看一下查询优化器为查询生成的运行计划。如图9-1所看到的。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvemhhbmdob25nanU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" />

图9-1 为ROW_NUMBER( )生成的运行计划

由上图能够看出,为了计算排名。优化器首先按分区列排序。然后再对分区内行按ORDER BY子句指定的列排序。

假设事先为表创建了符合该排序条件的索引。则会直接扫描该索引文件。不再进行排序。

“序列射影”运算符的工作是负责计算排名。“段”运算符用于确定分组边界。

二者相互协调工作,来确定每一行的排名值。

“段”运算符在内存中会保留一行,用来与下一行的PARTITION BY列值进行比較。

对于表中的第一行。“段”运算符自然会发送true信号。对于后面的行,直到PARTITIONBY列值有变化之前,会一直发送false信号。

假设PARTITION BY列值发生了变化,说明已经到了下一个分区。“段”运算符会再次发送true信号。“序列射影”运算符在接收到true信号后,会重置排名值。

假设“序列射影”运算符接收到的是false信号,它会确认当前输入行的排序值是否不同于上一行。假设不同。则按排名函数所指示的递增排名值。自然,在该演示样例中,由于ROW_NUMBER( )函数须要为每一行递增值。因此。这个排序值比較步骤在该演示样例中是不存在的。可是。对于像RANK( )和DENSE_RANK( )函数。在运行计划中还会有另外一个“段”运算符,用于比較排序值是否有变化,以确定是否递增排名值。此问题我们在以下还会有介绍。

9.2.2 RANK( )和DENSE_RANK( )函数

ROW_NUMBER( )函数用于编号,它与排名具有不同的概念。比如,由表9-1能够看出,班级1中的Grace和Andrew的成绩同样。都是99分。假设使用ROW_NUMBER( )函数编号,有两种编号方案可供选择:一种是Grace第1、Andrew第2。还有一种是Andrew第1、Grace第2。这尽管都是正确的。它具有不确定性。

而排名则不同了。它具有确定性,同样的排序值总是被分配同样的排名值。Grace和Andrew在排名的情况下都应当是第1。也就是我们常说的并列第1。那他们两人之后的名次是什么呢?是第2还是第3呢?从两人并列第1的角度讲,他们两人之后的名次应当是第2。这也是DENSE_RANK()函数的排名方式。前面已经有2个人99分了,他们后面的人应当是第3个高分者,从这个角度理解。后面的名次应当是第3,这也是RANK( )的排名方式。

DENSE_RANK( )函数的排名方式我们称之为密集排名。由于它的名次之间没有间隔。

以下的语句演示了RANK()和DENSE_RANK( )的排名方式,查询结果如表9-3所看到的。

SELECT ClassID, StudentName, Achievement,

RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) AS SortRank,

DENSE_RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) AS SortDense

FROM Students;

表9-3                              按班级和考试成绩分别使用RANK( )和DENSE_RANK( )排名

ClassID

StudentName

Achievement

SortRank

SortDense

1

Grace

99.00

1

1

1

Andrew

99.00

1

1

1

Margaret

89.00

3

2

1

Janet

75.00

4

3

2

Robert

91.00

1

1

2

Steven

86.00

2

2

2

Michael

72.00

3

3

3

Ann

94.00

1

1

3

Ken

92.00

2

2

3

Ina

80.00

3

3

3

Laura

75.00

4

4

以下是为语句生成的运行计划。与ROW_NUMBER( )相比,运行计划中多出了一个“段”运算符。右边段的分组根据是ClassID,左边段的分组根据是ClassID和Achievement,这是多出的“段”。右边的“段”用于分区操作,在到达下一个分区时发送true信号,“序列射影”运算符会重置排名值。

而左边的“段”用于比較排序值是否有变化,假设有变化,则通知“序列射影”运算符递增排名值,递增方式则按RANK( )和DENSE_RANK( )函数的规则进行。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvemhhbmdob25nanU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" />

图9-2 为RANK( )和DENSE_RANK( )生成的运行计划

在SQL Server2005之前,也能够使用子查询的方式实现排名计算。

语句的原理就是查询出比当前成绩高的个数,再加上1,就是该成绩的排名。比如,在第1个班级中,比99分高的成绩为0。加上1后。该成绩就是第1名。以下语句的运行结果表9-3所看到的同样,可是由于对于每一个成绩都要运行两次子查询,在性能方面与RANK()和DENSE_RANK( )函数相差非常远。

SELECT ClassID, StudentName, Achievement,

(SELECT COUNT(*) FROM Students AS S2

WHERE S2.ClassID = S1.ClassID AND S2.Achievement > S1.Achievement)+1AS SortRank,

(SELECT COUNT(DISTINCT achievement) FROM Students AS S2

WHERE S2.ClassID = S1.ClassID AND S2.Achievement > S1.Achievement)+1AS SortDense

FROM Students AS S1

ORDER BY ClassID, Achievement DESC;

9.2.3 NTILE( )函数

NTILE( )函数用于把行分发到指定数目的组中。

各个组有编号。编号从1開始。对于每一个行,NTILE将返回此行所属的组的编号。

NTILE( )函数能够接受一个代表组数量的參数,分组的方式“均分”原则。比如,假设一个表有10行,须要分成2组。则每一个组都会有5行。假设表有11行,须要分成3个组。这时候是无法均分的。它分配方法是先得到一个能够整除的基组大小(11/3=3),每组应当分配3行。剩余的2行(11-9)会被再次均分到前面的2组中。

比如,以下的语句指定将Students表按学生成绩划分为3个组,而且Students表恰好也是11行。分组结果如表9-4所看到的。

SELECT ClassID, StudentName, Achievement,

NTILE(3) OVER(ORDER BY Achievement DESC) AS Tile

FROM Students;

表9-4                                                                           分组结果

ClassID

StudentName

Achievement

Tile

1

Grace

99.00

1

1

Andrew

99.00

1

3

Ann

94.00

1

3

Ken

92.00

1

2

Robert

91.00

2

1

Margaret

89.00

2

2

Steven

86.00

2

3

Ina

80.00

2

3

Laura

75.00

3

1

Janet

75.00

3

2

Michael

72.00

3

也能够先分区,再分组。比如,以下的语句将每一个班级的成绩划分为高、低两组。查询结果如表9-5所看到的。

能够看出,包括4名学生的班级,每组是2人;包括3名学生的班级,第1组是2人,第2组是1人。

SELECT ClassID, StudentName, Achievement,

CASENTILE(2) OVER(PARTITION BY ClassID ORDER BY Achievement DESC)

WHEN 1 THEN '高'

WHEN 2 THEN '低'

ENDAS Tile

FROM Students;

表9-5                                                         按班级分区再按成绩分组结果

ClassID

StudentName

Achievement

Tile

1

Grace

99.00

1

Andrew

99.00

1

Margaret

89.00

1

Janet

75.00

2

Robert

91.00

2

Steven

86.00

2

Michael

72.00

3

Ann

94.00

3

Ken

92.00

3

Ina

80.00

3

Laura

75.00

瑞丽的SQL-基于窗体的排名计算的更多相关文章

  1. Spark Mllib里相似度度量(基于余弦相似度计算不同用户之间相似性)(图文详解)

    不多说,直接上干货! 常见的推荐算法 1.基于关系规则的推荐 2.基于内容的推荐 3.人口统计式的推荐 4.协调过滤式的推荐 协调过滤算法,是一种基于群体用户或者物品的典型推荐算法,也是目前常用的推荐 ...

  2. 基于神经网络的混合计算(DNC)-Hybrid computing using a NN with dynamic external memory

    前言: DNC可以称为NTM的进一步发展,希望先看看这篇译文,关于NTM的译文:人工机器-NTM-Neutral Turing Machine 基于神经网络的混合计算 Hybrid computing ...

  3. advisor调优工具优化sql(基于sql_id)

    advisor调优工具优化sql(基于sql_id) 问题背景:客户反馈数据库迁移后cpu负载激增,帮忙查看原因 解决思路:1> 查看问题系统发现有大量的latch: cache buffers ...

  4. 基于Kafka的实时计算引擎如何选择?Flink or Spark?

    1.前言 目前实时计算的业务场景越来越多,实时计算引擎技术及生态也越来越成熟.以Flink和Spark为首的实时计算引擎,成为实时计算场景的重点考虑对象.那么,今天就来聊一聊基于Kafka的实时计算引 ...

  5. 基于Kafka的实时计算引擎如何选择?(转载)

    1.前言 目前实时计算的业务场景越来越多,实时计算引擎技术及生态也越来越成熟.以Flink和Spark为首的实时计算引擎,成为实时计算场景的重点考虑对象.那么,今天就来聊一聊基于Kafka的实时计算引 ...

  6. 在论坛中出现的比较难的sql问题:35(时间间隔计算问题)

    原文:在论坛中出现的比较难的sql问题:35(时间间隔计算问题) 所以,觉得有必要记录下来,这样以后再次碰到这类问题,也能从中获取解答的思路.

  7. SQL语句通过身份证号计算年龄

    SQL语句通过身份证号计算年龄 1.截取身份证号上的出生日期 身份证一般为18位数和15位数 18位数身份证的第7-10位数是出生年份,第11-14位数是出生月日,所以18位身份证的年龄计算如下 su ...

  8. 云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践

    Fluid 是云原生基金会 CNCF 下的云原生数据编排和加速项目,由南京大学.阿里云及 Alluxio 社区联合发起并开源.本文主要介绍云知声 Atlas 超算平台基于 Fluid + Alluxi ...

  9. SQL Server 分析函数和排名函数

    分析函数基于分组,计算分组内数据的聚合值,经常会和窗口函数OVER()一起使用,使用分析函数可以很方便地计算同比和环比,获得中位数,获得分组的最大值和最小值.分析函数和聚合函数不同,不需要GROUP ...

随机推荐

  1. 【有趣~】SFOJ-1711 Obey的恋爱、NYOJ-739 笨蛋难题

    笨蛋难题四 时间限制:1000 ms  |  内存限制:65535 KB 难度:3   描述 这些日子笨蛋一直研究股票,经过调研,终于发现xxx公司股票规律,更可喜的是 笨蛋推算出这家公司每天的股价, ...

  2. UML类图设计

    大纲: 在Visio里,包和类的关系是包含关系,将类拖入包的文件夹之后,关系就建立了,二元关联符号可以设置为:聚合.合成.接口:空心圆+直线(唐老鸭类实现了‘讲人话’):依赖:虚线+箭头(动物和空气的 ...

  3. ZOJ3865:Superbot(BFS) The 15th Zhejiang University Programming Contest

    一个有几个小坑的bfs 题目很长,但并不复杂,大概总结起来有这么点. 有t组输入 每组输入n, m, p.表示一个n*m的地图,每p秒按键会右移一次(这个等会儿再讲). 然后是地图的输入.其中'@'为 ...

  4. c# datagridview与DataSet绑定, 列与数据库表里面的列一一对应

    参考代码1: 自己模拟出数据,并分别对dataGridView赋值. using System; using System.Collections.Generic; using System.Comp ...

  5. Java SE 6 新特性: Java DB 和 JDBC 4.0

    http://www.ibm.com/developerworks/cn/java/j-lo-jse65/index.html 长久以来,由于大量(甚至几乎所有)的 Java 应用都依赖于数据库,如何 ...

  6. Thrift框架使用C++的一个demo

    Thrift编译器会根据选择的目标语言为server产生服务接口代码,为client产生stubs,参数可以是基本类型和结构体. 代码框架用的Thrift,为了了解结构,学习写了一个thrift的De ...

  7. <转>Python 多线程的单cpu与cpu上的多线程的区别

    你对Python 多线程有所了解的话.那么你对python 多线程在单cpu意义上的多线程与多cpu上的多线程有着本质的区别,如果你对Python 多线程的相关知识想有更多的了解,你就可以浏览我们的文 ...

  8. EF6 Database First (DbContext) - Change Schema at runtime

    Problem:There are two SQL databases (dev and live) with on Azure which has identical table structure ...

  9. CSS定位(CSS定位概述、相对定位、绝对定位、浮动)

    CSS 定位属性 CSS 定位属性允许你对元素进行定位. 属性 描述 position 把元素放置到一个静态的.相对的.绝对的.或固定的位置中. top 定义了一个定位元素的上外边距边界与其包含块上边 ...

  10. 【转】MySql数据库--mysql_real_escape_string()函数

    MySql数据库--mysql_real_escape_string()函数 unsigned long mysql_real_escape_string(MYSQL *mysql, char *to ...