如何优雅的实现DML批量操作

如何优雅的实现DML批量操作（转载）

昨天处理了一个业务同学的数据需求，简单来说就是对一张大表做一下数据清理，数据量在8千万左右，需要保留近一个月的数据，大概是400万左右。

对于数据的删除处理，尤其是大表的处理，可以借助MySQL特有的一种处理策略，可以参考之前的文章:

从处理方式来看，基本就是做了rename,把原来表的数据转置到一个中间库里面，然后补录数据，对于日志型的数据表来说是很有必要的。

但是这种方式涉及几个细节，主要的出发点就是怎么样让这个操作更加可控，我所说的意思是整个处理过程你可以按部就班的操作，该备份备份，而补录补录，而对线上的切换过程都是毫秒级完成，几乎产生不了直接影响，要实现这个看似不大可能的需求，我们就需要设定几个边界：

1）数据类型为流水型业务，不涉及事务处理

2）数据流程不会修改历史数据，仅仅参考近N(可以为N,也可以为当天）的数据

3）操作的时机不是业务高峰期

4）能够接受秒级的数据写入闪断

明确了这些不能够之后，我们来看看怎么来实现这个目标，可以参考如下的流程图：

所以要实现这个目标，我们需要尽可能保证中转表的数据要尽可能完整，而且要保证数据切换能够高效完成。

那么我们处理的思路就是增量迭代，即最后的切换阶段耗时最短，我们可以提前复制需要补录的数据，同时对当天的数据进行增量的补录，然后开始切换。

我们可以参考如下的步骤：

1）首先创建同样结构的表，包括索引,一个表是做备份，一个是作为中转。

mysql> create table cmec_log_arch.log like cmec_log.log;

mysql> create table cmec_log_arch.log_new like cmec_log.log;

2）需要把近一个月的数据表现存放到中转表log_new里面，为了提高效率，我们先保证当天的数据有效。

mysql> insert into cmec_log_arch.log_new select * from cmec_log.log where cdate between '2019-09-18' and '2019-09-18 10:00:00'; --当前时间大于10:00:00，但是间隔不大

我们可以缩小时间间隔，完成增量数据的补录，直到增量数据的补录时长控制在秒级（数据集越小，处理时长越短）

2）然后切换表

mysql> RENAME TABLE cmec_log.log TO cmec_log_arch.log_bak,

cmec_log_arch.log TO cmec_log.log,

cmec_log_arch.log_bak TO cmec_log_arch.log;

Query OK, 0 rows affected (0.18 sec)

整个切换过程是很快的。

4）接着我们进行历史数据的补录，完成了当天数据的补录，我们只需要关注历史数据的范围即可。

为了尽可能降低对岸上环境的应县个，我们需要缩小补录的时间范围，比如按照如下的方式来进行补录：insert into cmec_log.log select * from cmec_log_arch.log_new where cdate between '2019-09-16' and '2019-09-17';

因为结果集相对小一些，处理过程对已有的数据处理线程的效率影响最小，可以避免大结果集导致服务阻塞的情况。

当然关键的部分是整个流程梳理完善后固定下来，我们可以把它转换成一个脚本，这样后续的操作我们只需要输入表名，保留的时间范围即可完成这个看起来略微复杂的需求了。
————————————————
版权声明：本文为CSDN博主「jeanron100」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/yangjianrong1985/article/details/102479380

如何优雅的实现DML批量操作的更多相关文章

【Hibernate框架】批量操作Batch总结
在我们做.net系统的时候,所做的最常见的批量操作就是批量导入.插入.更新.删除等等,以前我们怎么做呢?基本上有以下几种方式: 1.利用循环调用insert方法,一条条插入. public boole ...
salesforce 零基础学习（三十七） DML及Database方法简单描述
在apex中通过soql查询可以使用两种方式,使用DML语句或者使用Database的方法. 使用DML语句和使用Database类的方法对于我们来说用的都很多,并且都很常见.对于数据库常见的操作:增 ...
Oracle总结第二篇【视图、索引、事务、用户权限、批量操作】
前言在Oracle总结的第一篇中,我们已经总结了一些常用的SQL相关的知识点了-那么本篇主要总结关于Oralce视图.序列.事务的一些内容- 在数据库中,我们可以把各种的SQL语句分为四大类- (1 ...
Oracle总结【视图、索引、事务、用户权限、批量操作】
前言在Oracle总结的第一篇中,我们已经总结了一些常用的SQL相关的知识点了...那么本篇主要总结关于Oralce视图.序列.事务的一些内容... 在数据库中,我们可以把各种的SQL语句分为四大类 ...
Hibernate深入浅出（九）持久层操作——数据保存&批量操作
数据保存: 1)session.save session.save方法用于实体对象到数据库的持久化操作.也就是说,session.save方法调用与实体对象所匹配的Insert SQL,将数据插入 ...
数据库--MyBatis的(insert,update,delete)三种批量操作
转自:http://blog.csdn.net/starywx/article/details/23268465 前段时间由于项目赶期没顾上开发过程中的性能问题,现对部分代码进行优化的过程中发现在数据 ...
深度解析Django REST Framework 批量操作
我们都知道Django rest framework这个库,默认只支持批量查看,不支持批量更新(局部或整体)和批量删除. 下面我们来讨论这个问题,看看如何实现批量更新和删除操作. DRF基本情况我们 ...
python代码如何写的优雅？
简介在实际项目中,我们可能一开始为了完成功能而忽视了代码的整体质量,因此,使用一些高阶的函数或方法,能够更加使我们的代码更加优雅.废话不多说,现在马上开始. 使用enumerate方法替代range ...
[Egret]优雅的写http
首先,自从使用链式调用的写法后,就一发不可收拾的喜爱上了这种优雅的方式.不管是写架构还是写模块,我都会不自觉的使用这种最优雅的方式.链式写法既减少了代码量,又非常优雅的. 在使用 egret 的htt ...

随机推荐

python列表转json树菜单
1.列表数据 data = [ { 'id': 1, 'parent_id': 2, 'name': "Node1" }, { 'id': 2, 'parent_id': 5, ' ...
[IM002] [Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序
Problems meet in the project: [IM002] [Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序((IM002) [Microso ...
git路径超长及gitignore
1 忽略路径超长 git config --system core.longpaths true 2 比较全的gitignore https://www.gitignore.io/api/vim,no ...
Solr从数据库导入数据（DIH）
一. 数据导入(DataImportHandler-DIH) DIH 是solr 提供的一种针对数据库.xml/HTTP.富文本对象导入到solr 索引库的工具包.这里只针对数据库做介绍. A.准备以 ...
django 的保护机制
Vue项目安装CubeUI
CubeUi GitHub地址:https://github.com/didi/cube-ui install vue add cube-ui 项目中会多出cube ui 的配置文件来
笔记-CSS-e:nth-chid
1,CSS 2,
go mac 交叉编译 linux
CGO_ENABLED=0 GOOS=linux go build -a -installsuffix cgo -ldflags '-w' -o server ./server.go
python全栈开发，Day40（进程间通信(队列和管道)，进程间的数据共享Manager,进程池Pool）
昨日内容回顾进程 multiprocess Process —— 进程在python中创建一个进程的模块 start daemon 守护进程 join 等待子进程执行结束锁 Lock acqui ...
数字类别生成onehot
对应行的列#原始标签 my_label = np.array([3,4,2,4,6,1]) #类别数量 num_class = 6 #样本数量 num = my_label.shape[0] #生成o ...

如何优雅的实现DML批量操作

如何优雅的实现DML批量操作的更多相关文章

随机推荐

热门专题