MariaDB删除重复记录

不管是程序BUG，还是业务变更，重复数据这个老生常谈的问题，总是会出现。以下是我在MariaDB或是MySQL下处理的一些经验。在SQL Server中，使用窗口函数是很容易实现的。不过听说MySQL 8.0和MariaDB 10.2以上均支持窗口函数了。等有机会再来测试使用窗口函数来删除重复记录。

背景

表t_record中的数据fromUserId, toUserId两个字段组合作为唯一的标识，删除重复记录，只留下最大id（或最新时间）的记录。id为自增无重复的主键。

表t_record的id作为自增的主键。

表t_record大概有6万多的数据。以下测试均在资源很差的主机上，t_record没有在使用的情况下的结果。

方法1

查询重复的记录

SELECT fromUserId, toUserId, count(*)

FROM t_record as tr

GROUP BY fromUserId, toUserId

HAVING count(*) > 1;

把重复记录的两个字段放到临时表_tmp1中

CREATE TABLE _tmp1

SELECT fromUserId, toUserId

FROM t_record as tr

GROUP BY fromUserId, toUserId

HAVING count(*) > 1;

把应该删除的id查询出来，放到临时表_tmp2中

CREATE TABLE _tmp2

SELECT id

FROM t_record as a

WHERE (a.fromUserId, a.toUserId) in (

SELECT fromUserId, toUserId from _tmp1

)

and a.id not in (

SELECT MAX(id)

FROM t_record as tr

GROUP BY fromUserId, toUserId

HAVING count(*) > 1

);

删除原表的记录

DELETE from t_record

where id in (

	SELECT id from _tmp2

);

通过以前3个步骤，没有删除数据大概需要23秒左右。

方法2

如果表中没有主键，也没有可以标识唯一记录的字段。只能是把原表的数据分表后，插入到另一张临时表，删除原表数据，把临时表的数据导回来。

这种方法也适用合于有主键或有唯一标识的表，但操作过程中会影响在线的业务，需要中断业务。否则可能会造成数据丢失或数据不一致。

数据量大的表，导两次数据，过程会很慢，同时也需要注意硬盘空间是否足够。

方法3

测试mysql不支持以下这种delete语法来删除数据。改为select id 存到临时表，查询非常慢。

DELETE a

FROM table_nam a

WHERE EXISTS (SELECT 1 FROM table_nam b

				 WHERE b.userid = a.userid AND b.CreateDate > a.CreateDate);

方法4

在mariadb 10.1.19下测试，60多秒。

这个方法简单，只需要一条语句，速度还行。

DELETE

from t_record

where id not in (

		select maxid from

				(select max(id) as  maxid from  t_record

						group by fromUserId,toUserId

				) b

);

现对方法4的进行改造，再测试下。11.5秒。快好几倍了。

CREATE OR REPLACE TABLE _tmp3

SELECT id

FROM t_record

WHERE id NOT IN (

		SELECT maxid FROM

				(SELECT max(id) AS  maxid FROM t_record

						GROUP BY fromUserId,toUserId

				) b

);

DELETE FROM t_record

WHERE id IN (

		SELECT id from _tmp3

);

对临时表创建主键，再测试下。1.2秒！WOW！！！

CREATE OR REPLACE TABLE _tmp3 (id INT NOT NULL PRIMARY KEY);

INSERT INTO _tmp3 (id)

SELECT id

FROM t_record

WHERE id NOT IN (

		SELECT maxid FROM

				(SELECT max(id) AS  maxid FROM t_record

						GROUP BY fromUserId,toUserId

				) b

);

DELETE FROM t_record

        WHERE id IN (

                SELECT id from _tmp3

);

还以不能再快呢?改IN子句为JOIN，再测试下。1秒！

CREATE OR REPLACE TABLE _tmp3 (id INT NOT NULL PRIMARY KEY);

INSERT INTO _tmp3 (id)

SELECT id

FROM t_record

WHERE id NOT IN (

		SELECT maxid FROM

				(SELECT max(id) AS  maxid FROM t_record

						GROUP BY fromUserId,toUserId

				) b

);

DELETE a FROM t_record as a INNER JOIN _tmp3 as b on b.id = a.id;

难道删除的那个语句的执行计划是不同的吗?由于mysql只支持select的执行查询，所以把删除的语句修改为查询语句。

root@localhost [db1]EXPLAIN SELECT id FROM t_record WHERE id IN ( SELECT id from _tmp3 );

+------+-------------+-------------------+--------+---------------+---------+---------+--------------------+------+--------------------------+

| id   | select_type | table             | type   | possible_keys | key     | key_len | ref                | rows | Extra                    |

+------+-------------+-------------------+--------+---------------+---------+---------+--------------------+------+--------------------------+

|    1 | PRIMARY     | _tmp3             | index  | PRIMARY       | PRIMARY | 4       | NULL               |  452 | Using index              |

|    1 | PRIMARY     | t_record          | eq_ref | PRIMARY       | PRIMARY | 8       | testdb._tmp3.id |    1 | Using where; Using index |

+------+-------------+-------------------+--------+---------------+---------+---------+--------------------+------+--------------------------+

2 rows in set (0.00 sec)

root@localhost [db1]EXPLAIN SELECT a.id FROM t_record as a INNER JOIN _tmp3 as b on b.id = a.id;

+------+-------------+-------+--------+---------------+---------+---------+----------------+------+--------------------------+

| id   | select_type | table | type   | possible_keys | key     | key_len | ref            | rows | Extra                    |

+------+-------------+-------+--------+---------------+---------+---------+----------------+------+--------------------------+

|    1 | SIMPLE      | b     | index  | PRIMARY       | PRIMARY | 4       | NULL           |  452 | Using index              |

|    1 | SIMPLE      | a     | eq_ref | PRIMARY       | PRIMARY | 8       | testdb.b.id    |    1 | Using where; Using index |

+------+-------------+-------+--------+---------------+---------+---------+----------------+------+--------------------------+

2 rows in set (0.01 sec)

对比执行计划，是一样的。但测试多次，用JOIN方式速度还是快些。为什么呢?

MariaDB删除重复记录的更多相关文章

MariaDB删除重复记录性能测试
删除重复记录,只保留id最大的一条记录的性能测试环境测试表的id为是唯一的,或是自增的主键. mysql不能直接写循环,只能写在存储过程里. 存储过程usp_batch_insert的参数num_ ...
mysql删除重复记录语句的方法
例如: id name value 1 a pp 2 a pp 3 b iii 4 b pp 5 b pp 6 c pp 7 c pp 8 c iii id是主键要求得到这样的结果 id name ...
mysql 删除重复记录语句
mysql 根据条件删除重复记录只保留最小id的重复数据 DELETEFROM newsWHERE news_id IN ( SELECT a.news_id FROM ( SELECT news_ ...
sql查询重复记录、删除重复记录方法大全
查找所有重复标题的记录:SELECT *FROM t_info aWHERE ((SELECT COUNT(*)FROM t_infoWHERE Title = a.Title) > 1)ORD ...
mysql 数据表中查找、删除重复记录
为了性能考虑,在阅读之前提醒大家,如果有子查询,子查询查询到的数据最好不要超过总数据量的30%. 查询有重复数据的记录 select * from F group by a,b,c,d having ...
[SQL]查询及删除重复记录的SQL语句
一:查询及删除重复记录的SQL语句1.查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断select * from peoplewhere peopleId in (select ...
MySQL查询及删除重复记录的方法
查询及删除重复记录的方法(一)1.查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断select * from peoplewhere peopleId in (select p ...
Oracle 查询并删除重复记录的SQL语句
查询及删除重复记录的SQL语句 1.查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断select * from peoplewhere peopleId in (select ...
mysql插入数据与删除重复记录的几个例子(收藏)
mysql插入数据与删除重复记录的几个例子 12-26shell脚本实现mysql数据的批量插入 12-26mysql循环语句插入数据的例子 12-26mysql批量插入数据(insert into ...

随机推荐

Android native层动态库注射
1.简单介绍本文解说在Android native层.root权限下.注射动态库到目标进程,从而hook目标进程中动态库的函数的实现方式. 文中的源代码所有来源于网络.我仅仅是略微加以整理. 环境: ...
MyEclipse Web项目调试
1.发布项目 2.启动服务服务有两种启动方式,Run Server和Debug Server Run Server是运行模式,Debug Server是调试模式使用Debug Server模式启动 ...
聊聊高并发（十四）理解Java中的管程，条件队列，Condition以及实现一个堵塞队列
这篇里面有一些主要的概念,理解概念是件有意义的事情,仅仅有理解概念才干在面对详细问题的时候找到正确的解决思路.先看一下管程的概念第一次在书上看到管程这个中文名称认为非常迷糊,管程究竟是个什么东东,于 ...
appium+python自动化53-adb logcat查看日志
前言做app测试,遇到异常情况,查看日志是必不可少的,日志如何输出到手机sdcard和电脑的目录呢?这就需要用logcat输出日志了以下操作是基于windows平台的操作:adb logcat | ...
pytest文档19-doctest测试框架
前言 doctest从字面意思上看,那就是文档测试.doctest是python里面自带的一个模块,它实际上是单元测试的一种. 官方解释:doctest 模块会搜索那些看起来像交互式会话的 Pytho ...
Installation of NVIDIA Drivers in RHEL/CentOS and Fedora
1.首先安装所需的软件: # yum groupinstall "Development Tools" # yum install kernel-devel kernel-head ...
OpenCV学习(29) 凸包(convexhull)
在opencv中,通过函数convexHulll能很容易的得到一系列点的凸包,比如由点组成的轮廓,通过convexHull函数,我们就能得到轮廓的凸包.下面的图就是一些点集的凸包. 求凸包的代码如下: ...
Ubuntu 12.04 安装配置 Apache2
Apache2安装 1 我们使用root账户进行安装,首先切换到root账户,输入命令: sudo su 2 安装 Apache2 apt-get install apache2 在浏览器输入你服务器 ...
go语言基础之append函数的使用
1.append函数的使用作用:在原切片的末尾添加元素示例: package main //必须有个main包 import "fmt" func main() { s1 := ...
iOS开发-舒尔特表
周末闲来无事,看一个概念,挺有意思的,舒尔特表,网上也有很多人写过类似的Demo,本人闲来无事也写了一下,舒尔特表听起来很高大上的样子,不过本人的理解就是一个正方形的矩阵中放的各种小格子,可以是字母, ...

MariaDB删除重复记录

背景

方法1

方法2

方法3

方法4

MariaDB删除重复记录的更多相关文章

随机推荐

热门专题