前言

本文主要是总结平时工作学习中遇到的使用Sql Server的去除重复的心得体会。

由于平时工作使用Sql并不多，此次在写本文的测试过程中，就遇到了问题，如能有幸得到高手点播，将不胜感激。

高手可以直接看个开头，直接跳过文章内容，点到后面的遇到的问题，辛苦！

准备

本文使用的工具是SQL SERVER 2008，使用的是微软的案例Northwind，选取的数据集以Products表的前10条数据为例，如下图：

Distinct

根据之后紧跟关键字distinct后的字段去除重复，而distinct只能放在所有要查询字段的前面。distinct后的字段有一个不一样即为不同。

示例：根据SupplierID,CategoryID去除重复的内容

Select distinct a.SupplierID,a.CategoryID from (SELECT TOP 10 [ProductID]

      ,[ProductName]

      ,[SupplierID]

      ,[CategoryID]

      ,[QuantityPerUnit]

      ,[UnitPrice]

      ,[UnitsInStock]

      ,[UnitsOnOrder]

      ,[ReorderLevel]

      ,[Discontinued]

  FROM [Northwind].[dbo].[Products]) a

获得结果：

Note:使用distinct是针对其后面跟着的所有字段，而不是一个或两个字段。

这直接导致如果查询的时候需要查询的字段比较多，去除重复只是根据其中的一两个字段就无法获得想要的结果。

Group by

指定由查询 (SELECT) 表达式返回的对象要分入的组。使用group by时可以巧妙地使用聚合函数达到去除重复的目的。

Select Max(a.ProductID) as ID,a.CategoryID ,a.SupplierID from (SELECT TOP 10 [ProductID]

      ,[ProductName]

      ,[SupplierID]

      ,[CategoryID]

      ,[QuantityPerUnit]

      ,[UnitPrice]

      ,[UnitsInStock]

      ,[UnitsOnOrder]

      ,[ReorderLevel]

      ,[Discontinued]

  FROM [Northwind].[dbo].[Products]) a

  group by a.CategoryID ,a.SupplierID

获得结果：

这次可以获得去除重复过程中ID最大(获取ID最小列可以使用Min函数)的数据行，有了ID唯一标识列就可以解决上面distinct遗留下来的问题。

内联原来的表就可以获取想要的任意字段的值了。

顺带附上Min函数的结果：

Row_Number() over()

over()里面有两个参数

Partition by value_expression

将 FROM 子句生成的结果集划入应用了 ROW_NUMBER 函数的分区。 value_expression 指定对结果集进行分区所依据的列。如果未指定 PARTITION BY，则此函数将查询结果集的所有行视为单个组。

也就是说partition by后面的字段是要去重复的字段。欲知详情请点击此处

Order by

ORDER BY 子句可确定在特定分区中为行分配唯一 ROW_NUMBER 的顺序。它是必需的。

Select a.ProductID,a.SupplierID,a.CategoryID, ROW_NUMBER() over(partition by CategoryID ,SupplierID order by ProductID)as RowN from (

SELECT TOP 10 [ProductID]

      ,[ProductName]

      ,[SupplierID]

      ,[CategoryID]

      ,[QuantityPerUnit]

      ,[UnitPrice]

      ,[UnitsInStock]

      ,[UnitsOnOrder]

      ,[ReorderLevel]

      ,[Discontinued]

  FROM [Northwind].[dbo].[Products]) a

获得结果：

Note:此处的数据稍微有点问题，最后会说到。

此次并没有达到去除重复的结果，但稍微看下就发现了多了一行RowN。

这个是根据SupplierID,CategoryID分区并根据ProductID升序获得的行号。所以去除重复也就非常容易了。

Select* from (

Select a.ProductID,a.SupplierID,a.CategoryID, ROW_NUMBER() over(partition by CategoryID ,SupplierID order by ProductID)as RowN from (

SELECT TOP 10 [ProductID]

      ,[ProductName]

      ,[SupplierID]

      ,[CategoryID]

      ,[QuantityPerUnit]

      ,[UnitPrice]

      ,[UnitsInStock]

      ,[UnitsOnOrder]

      ,[ReorderLevel]

      ,[Discontinued]

  FROM [Northwind].[dbo].[Products]) a) b where b.RowN=1

获得结果：

顺带附上b.RowN=2结果：

面试问题

取出某年某月每一天的记录的第一条

姑且认为每天第一条记录是当天ID最小的那条，以下为测试使用数据集

SELECT  [OrderID]

      ,[CustomerID]

      ,[EmployeeID]

      ,[OrderDate]

  FROM [Northwind].[dbo].[Orders]

  where DATEPART(YEAR,OrderDate)=1997 AND DATEPART(MONTH,OrderDate)=1

方法一：Group by

  with Dataset as (SELECT  [OrderID]

      ,[CustomerID]

      ,[EmployeeID]

      ,[OrderDate]

  FROM [Northwind].[dbo].[Orders]

  where DATEPART(YEAR,OrderDate)=1997 AND DATEPART(MONTH,OrderDate)=1)

  Select a.* from Dataset a,

  (SELECT Min([OrderID]) as ID

      ,DATEPART(DAYOFYEAR,OrderDate) as dayofOrder

  FROM [Northwind].[dbo].[Orders]

  where DATEPART(YEAR,OrderDate)=1997 AND DATEPART(MONTH,OrderDate)=1

  group by DATEPART(DAYOFYEAR,OrderDate)) b

  where a.OrderID=b.ID

获得结果：

方法二：Row_Number() over()

 with Dataset as (SELECT  [OrderID]

      ,[CustomerID]

      ,[EmployeeID]

      ,[OrderDate]

  FROM [Northwind].[dbo].[Orders]

  where DATEPART(YEAR,OrderDate)=1997 AND DATEPART(MONTH,OrderDate)=1)

 select a.* from(Select *,ROW_NUMBER() over(Partition by DatePart(dayofyear,OrderDate)

 order by OrderID) as RowN from Dataset) a where a.RowN=1

获得结果：

小结：从以上两种方法可以明显感觉到第二种方法的优势，更强的灵活性，可以获得每天的第二条甚至更多，而且Order by排序有更多选择。

总结

本次关于Sql去除重复的总结就写完了，如果大家还有其他好的方法，还请分享出来。

文中如有错误或者描述不当的地方，还请指出！谢谢！

如有兴趣，继续看下面的问题，帮忙解决了，我将不胜感激！

参考资料：`http://stackoverflow.com/questions/3800551/select-first-row-in-each-group-by-group`

怪异的问题

测试过程中发现看下图：

这里面的获取的数据明显不是我想要的数据(可以参照准备里的数据集)，我测试其他字段都没有问题，只有单独获取CategoryID字段的时候有问题，求高手指点。

附：测试数据库下载

菜鸟去重复之Sql的更多相关文章

（转）菜鸟去重复之Sql
原文地址:http://www.cnblogs.com/fatbird/p/Sql-Remove-duplicate.html 前言本文主要是总结平时工作学习中遇到的使用Sql Server的去除重 ...
去重复的sql(Oracle)
1.利用group by 去重复 2.可以利用下面的sql去重复,如下 1) select id,name,sex from (select a.*,row_number() over(partiti ...
关系数据库SQL之高级数据查询:去重复、组合查询、连接查询、虚拟表
前言接上一篇关系数据库SQL之基本数据查询:子查询.分组查询.模糊查询,主要是关系型数据库基本数据查询.包括子查询.分组查询.聚合函数查询.模糊查询,本文是介绍一下关系型数据库几种高级数据查询SQL ...
mysql数据库去重复
参考:http://www.cnblogs.com/duanjie/archive/2011/08/13/2136862.html 说到去重复,感觉逻辑很简单.但动手写起来却并不是那么容易.面试的时候 ...
paip.输入法编程---带ord gudin去重复-
paip.输入法编程---带ord gudin去重复- 作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn.n ...
ASP.Net【如何合并DataTable，并且去重复方法】
虽然DataTable.Merge可以很好的实现,但以下代码写出来更好理解 DataTable DataTable1 = new DataTable(); DataTable DataTable2 = ...
Oracle单表去重复（二）
Oracle单表去重去重有两层含义,一:是记录完全一样.二:是符合一定条件的认为是重复. 根据表的数量,去重可划分为:单表去重和多表关联去重. 对于去重,一般最容易想到的是用distinct,而 ...
写了个去重复文件的 PHP 脚本，
写了个去重复文件的 PHP 脚本点击打开链接把各个零散网盘.邮箱和服务器上的文件,三台电脑上的文件收集在新硬盘里,然后清空了网络和电脑上的文件.才发现这个文件不能这里放点,那里存点,到时候不知道在哪 ...
【知识库】-数据库_MySQL之高级数据查询:去重复、组合查询、连接查询、虚拟表
简书作者:seay 文章出处: 关系数据库SQL之高级数据查询:去重复.组合查询.连接查询.虚拟表回顾:[知识库]-数据库_MySQL之基本数据查询:子查询.分组查询.模糊查询 Learn [已经过 ...

随机推荐

html5播放mp4视频代码
1.nginx支持flv和mp4格式播放默认yum安装nginx centos7安装nginx时候应该是默认安装nginx_mod_h264_streaming模块的 # nginx -V查看是否安 ...
C++ 构造函数_内存分区_对象初始化
内存分区栈区:int x = 0:int *p = NULL; 定义一个变量,定义一个指针时,会在栈区进行分配内存.分配的内存系统分配收回的,我们不用管. 堆区:int *p = new i ...
Shell中单引号、双引号、反引号、反斜杠的区别
1. 单引号 ( '' ) # grep Susan phonebook Susan Goldberg -- Susan Topple -- 如果我们想查找的是Susan Goldberg,不能直接使 ...
HDU-6156 Palindrome Function(数位DP)
一.题目二.思路 1.这是很明显的数位DP: 2.和以往数位DP不同的是,这里带了个进制进来,而以往做是纯十进制下或者纯二进制下做操作.但是,不管多少进制,原理都是一样的: 3.这里有个小坑,题目中 ...
[maven] 实战笔记 - 构建、打包和安装maven
① 手工构建自己的maven项目 Maven 项目的核心是 pom.xml.POM (Project Object Model,项目对象模型)定义了项目的基本信息,用于描述项目如何构建,声明项目依赖等 ...
win10开启开发人员模式
工具: win10 方法如下: 1.在Windows10系统桌面,点击开始菜单,然后在弹出窗口中选择“设置”菜单项 2.在打开的设置窗口中,选择“更新和安全”图标,并点击打开更新和安全窗口 3.在打开 ...
mybatis“$”和“#”
摘要:$ 是直接拼接# 会转义,更安全类比Mybatis的执行流程和JDBC原有的我们使用的方法就是:Mybatis: Sqlsession -> Executor -> Stateme ...
225. Implement Stack using Queues + 232. Implement Queue using Stacks
▶ 栈和队列的相互表示.发现内置的队列和栈结构都十分高效,相互表示后性能损失都很小. ▶ 第 225 题,用队列实现栈 ● 自己的代码,3 ms,单队列实现,入栈 O(1),读取栈顶元素 O(n),出 ...
Selenium Webdriver——Xpath轴定位(preceding)
1.preceding-sibling 选取当前节点之前的所有同级节点 text=出发之前的同级节点: 2.preceding 选取当前节点开始标签之前的所有节点 text=出发节点标签之前的所有i ...
提示框一段时间以后消失setTimeout
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

菜鸟去重复之Sql

前言

准备

Distinct

Group by

Row_Number() over()

面试问题

总结

参考资料：http://stackoverflow.com/questions/3800551/select-first-row-in-each-group-by-group

怪异的问题

附：测试数据库下载

菜鸟去重复之Sql的更多相关文章

随机推荐

热门专题

参考资料：`http://stackoverflow.com/questions/3800551/select-first-row-in-each-group-by-group`