原文:T-SQL技术收集——删除重复数据

在工作和面试中,经常出现如何查询或者删除重复数据的问题,如果有主键,那还好办一点,如果没有主键,那就有点麻烦。

当一个表上没有辅助键时,如果使用SSMS界面来删除,就会报错(注意,本人测试环境是2012,所以界面可能会有所不一样,但是对结果没有任何影响):

因为在创建表后插入数据是没有做判断。但是在删除时,为了保证数据库的一致性,RDBMS还是会做判断从而拒绝执行这类操作。

说明:

要解决这种问题,除了在设计的过程中做好之外,还可以在数据没有重复数据的情况下,使用ALTER TABLE ADD Constraint语句来增加约束。

但是要删除现有的重复值,使用SSMS界面是无法实现的,就算能实现,当数据量到达一定程度,也是不现实的。此时只能使用T-SQL语句,搭配SET ROWCOUNT 1让数据的处理方式一次一行或这使用DELETE  TOP (1)的方式删除,注意,括号是必须的。

SET ROWCOUNT { number | @number_var }:使 SQL Server 在返回指定的行数之后停止处理查询。如果需要取消限制,只需要使用SETROWCOUNT 0就可以。

下面是例子:

--使用set rowcount 3设定,查询所有数据

SET
ROWCOUNT  3

SELECT
* FROM
AdventureWorks.HumanResources.Department

结果如下:

--使用set rowcount 3,修改所有数据

UPDATE
AdventureWorks.HumanResources.Department

SET
name=name

(3 行受影响)

--回复原有设置

SET
ROWCOUNT  0

最后使用TOP (N)设定搭配INSERT/UPDATE /DELETE ,注意这部分只适合2005以后。

--使用TOP(3)设置,查询所有数据,注意是要有括号的

SELECT
TOP(3)
* FROM
AdventureWorks.HumanResources.Department

UPDATE
TOP(3)
AdventureWorks.HumanResources.Department
SET name
=name

(3 行受影响)

另外,SQLServer提供了一个系统函数@@ROWCOUNT来返回影响行数。以下是例子:

--使用@@rowcount系统函数返回影响行数

SELECT
EmployeeID,Title

FROM
AdventureWorks.HumanResources.Employee

WHERE
Title LIKE
'%Manager%'

GO

SELECT
@@ROWCOUNT 'Result'

解决方法:

首先创建一个测试表和插入测试数据:

USE tempdb

GO

CREATE TABLE
MyT

(

[SID]  
INT,

sname  
VARCHAR(10),

sdt    
DATETIME

)

GO

--插入测试数据

INSERT INTO
MyT VALUES (1,'Lu','2012/01/01');

INSERT INTO
MyT VALUES (1,'Lu','2012/07/08');

INSERT INTO
MyT VALUES (1,'Lu','2012/04/03');

INSERT INTO
MyT VALUES (2,'Tian','2012/03/01');

INSERT INTO
MyT VALUES (2,'Tian','2012/05/09');

INSERT INTO
MyT VALUES (2,'Tian','2012/01/01');

INSERT INTO
MyT VALUES (3,'AD','2012/01/08');

INSERT INTO
MyT VALUES (3,'AD','2012/03/01');

INSERT INTO
MyT VALUES (4,'Sun','2012/02/01');

INSERT INTO
MyT VALUES (1,'Lu','2012/01/01');

INSERT INTO
MyT VALUES (1,'Lu','2012/07/08');

INSERT INTO
MyT VALUES (1,'Lu','2012/04/03');

INSERT INTO
MyT VALUES (2,'Tian','2012/03/01');

INSERT INTO
MyT VALUES (2,'Tian','2012/05/09');

INSERT INTO
MyT VALUES (2,'Tian','2012/01/01');

INSERT INTO
MyT VALUES (3,'AD','2012/01/08');

INSERT INTO
MyT VALUES (3,'AD','2012/03/01');

INSERT INTO
MyT VALUES (4,'Sun','2012/02/01');

GO

第一种方法:

使用SET ROWCOUNT 1方法来删除重复数据:

需要搭配WHILE 1=1无限循环,搭配BREAK作为终止。针对找出来的重复数据,使用GROUP BY 和HAVING COUNT(1)>1作为筛选条件,可以避免所有数据被删除。

SET ROWCOUNT 1

WHILE 1=1

BEGIN

DELETE
FROM MyT

WHERE
[sid] IN

(

SELECT
[sid] FROM MyT

GROUP
BY [sid],sname

HAVING
COUNT(1)>1

)

IF
@@ROWCOUNT=0

BREAK

END

SET ROWCOUNT 0

--可以发现,重复的数据已经删除

SELECT *
FROM MyT

第二种方法:

使用DELETE TOP(N)方法,先把刚才插入测试数据的脚本再执行,可以多执行几次。DELETE TOP(1)可以用来替代SET ROWCOUNT 1:

WHILE 1=1

BEGIN

DELETE
TOP(1)
FROM MyT

WHERE
[sid] IN

(

SELECT
[sid] FROM MyT

GROUP
BY [sid],sname

HAVING
COUNT(1)>1

)

IF
@@ROWCOUNT=0

BREAK

END

结果和上面的一样。

扩充:保留最近的一行数据:

有时候不仅仅要去掉重复数据,也要保证剩下的是最新的数据(日期最大),此时可以借助索引,使用索引排序,然后把日期最小的那些删掉,只保留日期最大的那一笔。

--建立复合索引,利用索引将数据以编号和日期升序排序

CREATE INDEX
IDX_DT ON
MyT([sid],sdt
ASC)

GO

--修改删除语句,搭配with index查询提示

WHILE 1=1

BEGIN

DELETE
TOP(1)
FROM MyT

WHERE
[sid] IN

(

SELECT
[sid] FROM MyT
WITH (INDEX(idx_dt))

GROUP
BY [sid],sname

HAVING
COUNT(1)
>1

)

IF
@@ROWCOUNT=0

BREAK

END

查询结果:

SELECT *
FROM MyT

注意:

为了向后兼容,括号在 SELECT 语句中是可选的。

我们建议您始终对 SELECT 语句中的 TOP 使用括号,这样,就可以与在 INSERT、UPDATE、MERGE 和 DELETE 语句中需要使用括号保持一致(在这种情况下括号是必需的)。

(出自SQL SERVER 2012联机丛书)

T-SQL技术收集——删除重复数据的更多相关文章

  1. 面试题中经常遇到的SQL题:删除重复数据,保留其中一条

    如题,解决思路如下: 1.首先我们需要找出拥有重复数据的记录 ---以name字段分组 select Name,COUNT(Name) as [count] from Permission group ...

  2. 你真的会玩SQL吗?删除重复数据且只保留一条

    在网上看过一些解决方法 我在此给出的方法适用于无唯一ID的情形 表:TB_MACVideoAndPicture 字段只有2个:mac,content mac作为ID,正常情况下mac数据是唯一的,由于 ...

  3. SQL Server中删除重复数据

    delete from A ) )

  4. SQL表之间复制数据、选出随机几条数据、删除重复数据、取得自增长列等操作

    --表之间数据复制 SELECT* INTO yozhu FROM yo --复制一份表 SELECT* INTO yozhu1 FROM yo where 1<>1 --只复制表结构,无 ...

  5. SQL server 存储过程 C#调用Windows CMD命令并返回输出结果 Mysql删除重复数据保留最小的id C# 取字符串中间文本 取字符串左边 取字符串右边 C# JSON格式数据高级用法

    create proc insertLog@Title nvarchar(50),@Contents nvarchar(max),@UserId int,@CreateTime datetimeasi ...

  6. sql查询删除重复数据

    数据库UserInfo 删除重复数据 即删除重复的用户名手机号 同一个用户名手机号只保留一个用户 01.根据多个字段查询重复数据 with data1 as( select MobilePhone,N ...

  7. sql 删除重复数据且保留其中一条 用sql 关键字:with ROW_NUMBER

    --1.建立表:Coursecreate table Course( ID int identity(1,1),--ID Student varchar(20) ,--学生 Sub varchar(2 ...

  8. SQL语句删除重复数据

    1.如表中没有主键,先添加自动增长主键 alter table 表名 add 列名 int identity (1,1) primary key 2.删除重复数据 delete from 表名 whe ...

  9. SQL:一句话删除重复的数据

    --构造原始数据 )) --插入数据 INSERT INTO #T (N)VALUES ('A') --方式一:一句话删除重复数据(无主键) --方式二:采用CTQ,with的写法删除 ;

随机推荐

  1. freemarker导出word带图片

    导出word带图片 如果你需要在word中添加图片,那你就在第一步制作模板时,加入一张图片占位,然后打开xml文档,可以看到如下的一片base64编码后的代码: <w:binData w:nam ...

  2. leetcode第一刷_Convert Sorted List to Binary Search Tree

    好,二叉搜索树粉末登场,有关他的问题有这么几个,给你一个n,如何求全部的n个节点的二叉搜索树个数?能不能把全部的这些二叉搜索树打印出来? 这道题倒不用考虑这么多,直接转即可了,我用的思想是分治,每次找 ...

  3. HDU 1114 Piggy-Bank 全然背包

    Piggy-Bank Time Limit:1000MS     Memory Limit:32768KB     64bit IO Format:%I64d & %I64u Submit S ...

  4. CheckBoxList的操作查询是否被选中设置或者得到

    在项目中我们可能会经常遇到一收集多选信息的情况,比如做注册的时候要收集个人爱好,那时候大家第一个想到的肯定是CheckBoxList.那我们怎么来获取到CheckBoxList的值并且存入数据库呢?? ...

  5. (hdu step 7.1.3)Lifting the Stone(求凸多边形的重心)

    题目: Lifting the Stone Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Other ...

  6. poj1182食物链(种类并查集)

    http://poj.org/problem?id=1182 r[x] = 0 表示x和父亲是同类r[x] = 1 表示x吃父亲r[x] = 2 表示x被父亲吃因为只存在三种动物,且三种动物构成了环形 ...

  7. AMD宣布裁员7% 约710员工将失去工作

    10 月 17 日.美国芯片生产商 AMD 周四宣布将裁员7%.并公布了不及预期的第四季度业绩展望.这将是 AMD 自 2011 年以来的第三轮大裁员. 就在一周之前,AMD 宣布罗瑞德(Rory R ...

  8. atitit.报告最佳实践oae 和报告引擎的选择

    atitit.报告最佳实践oae 与报表引擎选型 1. 报表的基本的功能and结构 2 1.1. 查询设计器(配置化,metadata in html) ,anno 2 1.2. 查询引擎 2 1.3 ...

  9. 行为驱动开发(BDD)

    行为驱动开发(BDD) 引言 BDD是对TDD理念的扩展.BDD强调有利害关系的技术团体和非技术团队都要参与到软件开发过程中.可以把它看成一种强调团体间合作的敏捷方法.大多数采用某种敏捷方法的团队最终 ...

  10. WindowsPhone 在 根据公历 获取月球日期数据

    WindowsPhone 在 根据公历 获取月球日期数据 WindowsPhone 在 它们的定义 类,根据公历 获取月球日期数据 using System; using System.Collect ...