10W数据量导入与现有表数据去重

使用的是PostgreSQL

在做大数据量（十万级）导入时，某些字段和数据库表里数据（千万级）重复的需要排除掉，把表数据查询出来用程序的方式判断去重效率很低，于是考虑用临时表。

先把新数据插入到临时表里，临时表结构和原始表一致。
用SQL的方式把不重复的数据DataA查询出来。
把DataA插入到原始表里。

因为不重复的数据我还要做一些其他的处理，所以查出来DataA，若不需做特殊处理可直接使用 insert into select 的方式将第2步的数据插入到原始表，然后清空临时表

第2步有两种方式，一种是用 not exists 的方式，如

SELECT

	*

FROM

	tableTemp t1

WHERE

	NOT EXISTS ( SELECT 1 FROM tableName WHERE columnA = t1.columnA AND columnB = t1.columnB )

第二种方式是用 left join

SELECT

	*

FROM

	tableTemp t1

	LEFT JOIN tableName t2 ON t2.columnA = t1.columnA AND t2.columnB = t2.columnB

WHERE

	t2.columnA IS NULL

经测试（每个人的表结构和索引各有不同，我这里仅仅提供参考）

临时表数据量少时， not exists 用时较少，随着数据量越多用时越久。当数据达到10w时，用时25s。

临时表数据量少时，left join 用时30s，随着数据量越多变化不大，当数据达到10w时，用时40s。

结论1：单表去重时，只要导入的数据量不是特别特别大（20w级以上），优先使用 not exists 做去重。

但还有一种情况，就是需要对两个表做去重。

例如

SELECT

	*

FROM

	tableTemp t1

WHERE

	NOT EXISTS (

	SELECT 1 FROM tableNameA WHERE columnA = t1.columnA AND columnB = t1.columnB

	union all

	select 1 from tableNameB WHERE columnA = t1.columnA AND columnB = t1.columnB

	);

SELECT

	*

FROM

	tableTemp t1

	LEFT JOIN tableNameA t2 ON t2.columnA = t1.columnA AND t2.columnB = t1.columnB

	LEFT JOIN tableNameB t3 ON t3.columnA = t1.columnA AND t3.columnB = t1.columnB

WHERE

	t2.columnA IS NULL

	AND t3.columnA IS NULL

这种情况下，

临时表数据少时，not exists 用时较少，随着数据量越多用时越久。当数据达到10w时，用时150s！！！。

临时表数据少时，left join 用时仍然是30s，随着数据量越多用时越久。当数据达到10w时，用时仍然是40s。

两者在数据量为3w时，用时不相上下

结论2：双表去重时，当导入的数据在3w以下时，用 not exists，在3w以上时，用 left join。

10W数据量导入与现有表数据去重的更多相关文章

mysql中把一个表的数据批量导入另一个表中
mysql中把一个表的数据批量导入另一个表中不管是在网站开发还是在应用程序开发中,我们经常会碰到需要将MySQL或MS SQLServer某个表的数据批量导入到另一个表的情况,甚至有时还需要指定 ...
MySQL的表分区详解 - 查看分区数据量，查看全库数据量----转http://blog.csdn.net/xj626852095/article/details/51245844
查看分区数据量,查看全库数据量 USE information_schema; SELECT PARTITION_NAME,TABLE_ROWS FROM INFORMATION_SCHEMA.PAR ...
Mysql 大数据量导入程序
Mysql 大数据量导入程序<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" ...
plsql 数据迁移——导出表结构，表数据，表序号
场景:项目开发完之后要部署在不同的环境进行测试,这时候就需要将数据库中的表结构,序号,数据进行迁移,这时候就需要能够熟练的使用plsql. 问题: 导出的表结构,在另一个数据库中无法导入部分表的数据 ...
针对数据量较大的表，需要进行跨库复制，采用navcat 实现sqlite数据库跨数据库的数据表迁移 [转载]
2014年12月13日 14:36 新浪博客 (转自http://www.cnblogs.com/nmj1986/archive/2012/09/17/2688827.html) 需求: 有两个不同的 ...
java excel大数据量导入导出与优化
package com.hundsun.ta.utils; import java.io.File; import java.io.FileOutputStream; import java.io.I ...
JAVA JDBC大数据量导入Mysql
转自https://blog.csdn.net/q6834850/article/details/73726707?tdsourcetag=s_pctim_aiomsg 采用JDBC批处理(开启事务. ...
基于EasyExcel的大数据量导入并去重
源码:https://gitee.com/antia11/excel-data-import-demo 背景:客户需要每周会将上传一个 Excel 数据文件,数据量单次为 20W 以上,作为其他模块和 ...
SQL学习_查询重复数据和连接多个表数据的方法
进行数据库测试时需要根据不同场景查询数据,以便验证发现的问题是否为脏数据引起的.记录一下最近常用的查询方法: 1. 查询表中重复数据(id不同,多个字段值相同) select P1.* from pr ...
ORACLE 数据库选择性导出表中数据&导入已存在表数据
在dos界面下选择性导出表中的数据语句为: exp his/linker@orcl tables=(sysreprot) file="D:\20131218.dmp" query= ...

随机推荐

06-Linux用户和组管理
关于用户和组的知识家目录用户都有家目录:root用户家目录为/root.其他用户的家目录在/home/,如user1的家目录为/home/user1 当我们创建用户时,系统就会自动创建该用户的家目 ...
Markdown 文章跳转
背景在查阅一些文档的时候,一些比较优秀博客在文章中是带有目录的,点击就会跳转到指定的锚点. 在本人的某些文章中,也想尝试这样的效果. 做法实现这样的效果有2种做法(不同之处在于超链接的写法不同) ...
三屏异显案例分享，基于全国产RK3568J工业平台！
在工业领域中,能否更灵活.更高效地在主屏幕进行主要任务,并在其他副屏幕上进行其他次要任务(例如查看参考资料.监控其他应用程序),一直都是许多工业领域客户面临的刚需,而"多屏异显"功 ...
c语言生成随机数
记录示例,留作自用 #include <stdio.h> #include <stdlib.h> #include <time.h> int main(void) ...
MQTT协议介绍与Broker列表
MQTT协议介绍 MQTT是什么? MQTT 是基于 Publish/Subscribe(发布/订阅) 模式的物联网通信协议,凭借简单易实现.支持 QoS.报文小等特点. 官网:https://mqt ...
Java反射机制原理详解
什么是反射? Java反射机制的核心是在程序运行时动态加载类并获取类的详细信息,从而操作类或对象的属性和方法.本质是JVM得到class对象之后,再通过class对象进行反编译,从而获取对象的各种信息 ...
SpringBoot异步任务EnableAsync
什么是一部任务和使用场景:适用于处理log.发送邮件.短信...等下单接口->查库存 1000 余额校验 1500 风控用户 1000 启动类里面使用@EnableAsync注解开启功能,自动 ...
洛谷P1439
这道题也给了我很多的思考,因为很久没有做过LIS和KLCS的题了为什么能采用二分因为f数组保存的是LCS长度为i时的最小末尾的值,可以证明f数组一定是单调的,并且是严格单调的为什么要保存末尾最小 ...
1. CMake 概述
1. CMake 概述 CMake 可以用来构建C/C++工程,可以跨平台.允许开发者指定整个工程的编译流程在CMake 没有出来之前,开发者需要手写 makefile,但是不同平台下的 makef ...
解决方案 | PPT右键复制文本时右键粘贴选项按钮为空白
1.问题 2.解决方法随便复制一些文字,不要采用CRTL+V,而是采用右键粘贴方法到ppt中,选择纯文本的"A"符号. 之后再使用CTRL+C复制,CTRL+V即正常.(好像只能 ...

10W数据量导入与现有表数据去重

10W数据量导入与现有表数据去重的更多相关文章

随机推荐

热门专题