MariaDB删除重复记录
不管是程序BUG,还是业务变更,重复数据这个老生常谈的问题,总是会出现。以下是我在MariaDB或是MySQL下处理的一些经验。在SQL Server中,使用窗口函数是很容易实现的。不过听说MySQL 8.0和MariaDB 10.2以上均支持窗口函数了。等有机会再来测试使用窗口函数来删除重复记录。
背景
表t_record中的数据fromUserId, toUserId两个字段组合作为唯一的标识,删除重复记录,只留下最大id(或最新时间)的记录。id为自增无重复的主键。
表t_record的id作为自增的主键。
表t_record大概有6万多的数据。以下测试均在资源很差的主机上,t_record没有在使用的情况下的结果。
方法1
查询重复的记录
SELECT fromUserId, toUserId, count(*)
FROM t_record as tr
GROUP BY fromUserId, toUserId
HAVING count(*) > 1;
把重复记录的两个字段放到临时表_tmp1中
CREATE TABLE _tmp1
SELECT fromUserId, toUserId
FROM t_record as tr
GROUP BY fromUserId, toUserId
HAVING count(*) > 1;
把应该删除的id查询出来,放到临时表_tmp2中
CREATE TABLE _tmp2
SELECT id
FROM t_record as a
WHERE (a.fromUserId, a.toUserId) in (
SELECT fromUserId, toUserId from _tmp1
)
and a.id not in (
SELECT MAX(id)
FROM t_record as tr
GROUP BY fromUserId, toUserId
HAVING count(*) > 1
);
删除原表的记录
DELETE from t_record
where id in (
SELECT id from _tmp2
);
通过以前3个步骤,没有删除数据大概需要23秒左右。
方法2
如果表中没有主键,也没有可以标识唯一记录的字段。只能是把原表的数据分表后,插入到另一张临时表,删除原表数据,把临时表的数据导回来。
这种方法也适用合于有主键或有唯一标识的表,但操作过程中会影响在线的业务,需要中断业务。否则可能会造成数据丢失或数据不一致。
数据量大的表,导两次数据,过程会很慢,同时也需要注意硬盘空间是否足够。
方法3
测试mysql不支持以下这种delete语法来删除数据。改为select id 存到临时表,查询非常慢。
DELETE a
FROM table_nam a
WHERE EXISTS (SELECT 1 FROM table_nam b
WHERE b.userid = a.userid AND b.CreateDate > a.CreateDate);
方法4
在mariadb 10.1.19下测试,60多秒。
这个方法简单,只需要一条语句,速度还行。
DELETE
from t_record
where id not in (
select maxid from
(select max(id) as maxid from t_record
group by fromUserId,toUserId
) b
);
现对方法4的进行改造,再测试下。11.5秒。快好几倍了。
CREATE OR REPLACE TABLE _tmp3
SELECT id
FROM t_record
WHERE id NOT IN (
SELECT maxid FROM
(SELECT max(id) AS maxid FROM t_record
GROUP BY fromUserId,toUserId
) b
);
DELETE FROM t_record
WHERE id IN (
SELECT id from _tmp3
);
对临时表创建主键,再测试下。1.2秒!WOW!!!
CREATE OR REPLACE TABLE _tmp3 (id INT NOT NULL PRIMARY KEY);
INSERT INTO _tmp3 (id)
SELECT id
FROM t_record
WHERE id NOT IN (
SELECT maxid FROM
(SELECT max(id) AS maxid FROM t_record
GROUP BY fromUserId,toUserId
) b
);
DELETE FROM t_record
WHERE id IN (
SELECT id from _tmp3
);
还以不能再快呢?改IN子句为JOIN,再测试下。1秒!
CREATE OR REPLACE TABLE _tmp3 (id INT NOT NULL PRIMARY KEY);
INSERT INTO _tmp3 (id)
SELECT id
FROM t_record
WHERE id NOT IN (
SELECT maxid FROM
(SELECT max(id) AS maxid FROM t_record
GROUP BY fromUserId,toUserId
) b
);
DELETE a FROM t_record as a INNER JOIN _tmp3 as b on b.id = a.id;
难道删除的那个语句的执行计划是不同的吗?由于mysql只支持select的执行查询,所以把删除的语句修改为查询语句。
root@localhost [db1]EXPLAIN SELECT id FROM t_record WHERE id IN ( SELECT id from _tmp3 );
+------+-------------+-------------------+--------+---------------+---------+---------+--------------------+------+--------------------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+------+-------------+-------------------+--------+---------------+---------+---------+--------------------+------+--------------------------+
| 1 | PRIMARY | _tmp3 | index | PRIMARY | PRIMARY | 4 | NULL | 452 | Using index |
| 1 | PRIMARY | t_record | eq_ref | PRIMARY | PRIMARY | 8 | testdb._tmp3.id | 1 | Using where; Using index |
+------+-------------+-------------------+--------+---------------+---------+---------+--------------------+------+--------------------------+
2 rows in set (0.00 sec)
root@localhost [db1]EXPLAIN SELECT a.id FROM t_record as a INNER JOIN _tmp3 as b on b.id = a.id;
+------+-------------+-------+--------+---------------+---------+---------+----------------+------+--------------------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+------+-------------+-------+--------+---------------+---------+---------+----------------+------+--------------------------+
| 1 | SIMPLE | b | index | PRIMARY | PRIMARY | 4 | NULL | 452 | Using index |
| 1 | SIMPLE | a | eq_ref | PRIMARY | PRIMARY | 8 | testdb.b.id | 1 | Using where; Using index |
+------+-------------+-------+--------+---------------+---------+---------+----------------+------+--------------------------+
2 rows in set (0.01 sec)
对比执行计划,是一样的。但测试多次,用JOIN方式速度还是快些。为什么呢?
MariaDB删除重复记录的更多相关文章
- MariaDB删除重复记录性能测试
删除重复记录,只保留id最大的一条记录的性能测试 环境 测试表的id为是唯一的,或是自增的主键. mysql不能直接写循环,只能写在存储过程里. 存储过程usp_batch_insert的参数num_ ...
- mysql删除重复记录语句的方法
例如: id name value 1 a pp 2 a pp 3 b iii 4 b pp 5 b pp 6 c pp 7 c pp 8 c iii id是主键 要求得到这样的结果 id name ...
- mysql 删除重复记录语句
mysql 根据条件删除重复记录 只保留最小id的重复数据 DELETEFROM newsWHERE news_id IN ( SELECT a.news_id FROM ( SELECT news_ ...
- sql查询重复记录、删除重复记录方法大全
查找所有重复标题的记录:SELECT *FROM t_info aWHERE ((SELECT COUNT(*)FROM t_infoWHERE Title = a.Title) > 1)ORD ...
- mysql 数据表中查找、删除重复记录
为了性能考虑,在阅读之前提醒大家,如果有子查询,子查询查询到的数据最好不要超过总数据量的30%. 查询有重复数据的记录 select * from F group by a,b,c,d having ...
- [SQL]查询及删除重复记录的SQL语句
一:查询及删除重复记录的SQL语句1.查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断select * from peoplewhere peopleId in (select ...
- MySQL查询及删除重复记录的方法
查询及删除重复记录的方法(一)1.查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断select * from peoplewhere peopleId in (select p ...
- Oracle 查询并删除重复记录的SQL语句
查询及删除重复记录的SQL语句 1.查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断select * from peoplewhere peopleId in (select ...
- mysql插入数据与删除重复记录的几个例子(收藏)
mysql插入数据与删除重复记录的几个例子 12-26shell脚本实现mysql数据的批量插入 12-26mysql循环语句插入数据的例子 12-26mysql批量插入数据(insert into ...
随机推荐
- Is Usb Drive () ? DeviceIoControl, IOCTL_STORAGE_QUERY_PROPERTY
http://banderlogi.blogspot.com/2011/06/enum-drive-letters-attached-for-usb.html typedef enum _STORAG ...
- SQL 列转行,即多行合并成一条
需求:按照分组,将多条记录内容合并成一条,效果如下: 数据库示例: CREATE TABLE [t2]([NID] [bigint] NULL,[district] [nvarchar](255) N ...
- C#程序集系列09,程序集签名
在"C#程序集系列08,设置程序集版本"中体验了为程序集设置版本,但对于程序集的安全性来说,还远远不够.本篇体验程序集的签名. □ 程序集的签名 →F盘as文件夹下有多个文件→在程 ...
- C#编程(四)
原文地址:http://blog.csdn.net/shanyongxu/article/details/46400067 C#预定义数据类型 C#中的可用类型以及及其定义非常严格,C#中获得数据类型 ...
- C# 输入法 z
C# 输入法 虽说输入法不是什么新事物,各种语言版本都有,不过在C#不常见:这就会给人一种误会:C#不能做!其实C#能不能做呢,答案是肯定的——三种方式都行:IMM.TSF以及外挂式.IMM这种就是调 ...
- 几款开源的ETL工具及ELT初探
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract).转换(transform).加载(load)至目的端的过程.ETL 是构建数据仓 ...
- RecyclerView 缓存机制详解
一 前言 RecyclerView据官方的介绍,该控件用于在有限的窗口中展示大量数据集,其实这样功能的控件我们并不陌生,例如:ListView.GridView.RecyclerView可以用来代替传 ...
- Object类型转换为long或者Long
1.转换为long Object o = new Object();long l = Long.valueOf(String.valueOf(o)).longValue(); 2.转换为Long Ob ...
- maven生命周期(lifecycle)—— maven权威指南学习笔记(四)
定义: 生命周期是包含在一个项目构建中的一系列有序的阶段 举个例子来说就是maven 对一个工程进行: 验证(validate) …… 编译源码(compile) …… 编译测试源码(test-com ...
- 【BZOJ】【3170】【TJOI2103】松鼠聚会
切比雪夫距离+曼哈顿距离 题解:http://www.cnblogs.com/zyfzyf/p/4105456.html 其实应该先做这题再做[BZOJ][3210]花神的浇花集会的吧…… 我们发现d ...