背景

笔者在公司负责公司的OpenAPI应用,估产生了调用审计的需求。对于存储这些AccessLog,虽然业界有很合适的架构和理论,奈何我司已成本优先,且作为toB的项目,调用量并不算特别大,每天也就2G左右的AccessLog产生。业务特征又导致整个订单的周期非常长,最少要保存1年以上的记录,以备排查问题所用(扯皮甩锅)。所以使用了大磁盘的MySQL直接存储。其表结构如下:

CREATE TABLE `access_log` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
`gmt_create` bigint(20) NOT NULL COMMENT '创建时间',
`trace_id` varchar(50) DEFAULT NULL COMMENT 'traceId',
`api_name` varchar(50) DEFAULT NULL COMMENT 'api名称',
`api_context` longtext COMMENT '调用正文',
`api_result` longtext COMMENT '返回正文',
`is_success` tinyint(4) DEFAULT NULL COMMENT '是否成功',
`time_consuming` bigint(20) DEFAULT NULL COMMENT '消耗时间(毫秒)',
PRIMARY KEY (`id`),
KEY `idx_trace_id` (`trace_id`),
KEY `idx_gmt_create` (`gmt_create`,`api_name`),
KEY `idx_api_name` (`api_name`,`gmt_create`,`is_success`)
) ENGINE=InnoDB COMMENT='流量入口-api记录'

而随着业务发展,需要接入的系统也越来越多,甚至有定时任务需要轮询接口,导致日志量暴增。达到了日均40G的地步。单表最大数据量在600G

在此期间,使用了各种手段优化写入量。忽略某些超高频又不影响业务的API。只记录某些接口错误调用的日志等等。

至于为什么不采用以月为后缀的动态表,涉及到我司DB管控问题。该方案一直无法通过。

问题拖到现在,涉及两张表:accessLog 600G, errorLog 200G。存储已经达到了物理机的上限,扩容就需要进行数据库迁移,最少需要一周时间提前做数据迁移。

要求

现状:

  1. 两张超大表:accessLog 600G, errorLog 200G。
  2. 近两周暴增了400G的占用
  3. 整个机器的存储空间已经达到91%。剩余90G左右空间。

要求:

  1. 线上做到写入无影响。
  2. 数据库不能因此宕机。

技术方案

因为涉及的表过大,操作必须谨慎,不能产生临时表,表重建等隐形操作。

流程如下:

  1. 清理errorLog表,只留存3天数据
  2. 检查实际空间占用,确定重建表的空间安全
  3. 重建该表,将可用空间提升到200G左右
  4. 归档accessLog表
  5. 清理其超高频的API日志
  6. 按照日期保留3个月的日志
  7. 检查实际空间占用,确定重建时空间安全。
  8. 说服DBA,同意基于日期的动态表方案。

清理数据

清理数据相对简单,只需要加上主键排序+limit即可

delete from table_name where *** order by id limit 10000;

但是在清理过程中需要注意binlog文件大小,因为binlog一般配置了按天保存文件,可能导致binlog打满磁盘的情况。

查看binlog文件大小

show binary logs;

| Log_name         | File_size|
| mysql-bin.003312 | 15178497 |
| mysql-bin.003313 | 3841846 |
| mysql-bin.003314 | 12789083 |
| mysql-bin.003315 | 9800029 |

查看正在写入的Binlog文件

show master status;  

| File             | Position | Binlog_Do_DB | Binlog_Ignore_DB | Executed_Gtid_Set |
| mysql-bin.003315 | 10479164 | | | **** |

执行过程中,需要暂停一段时间执行,方便binlog切换等操作,否则可能导致实例一直繁忙状态无法生成新的binlog文件

清理历史binlog文件

PURGE MASTER LOGS TO 'mysql-bin.003315';  

--- 清理 mysql-bin.003315 之前的文件,并不会清理当前文件。

清理完成后可以再次查看binlog文件

检查实际空间大小

因为MySQL的物理删除本质上也是逻辑删除,所以空间并不会被释放,需要检查实际的空间占用,保证重建表时,空间在安全范围内。

SELECT CONCAT(table_schema, '.', table_name)                      AS 'Table Name',
CONCAT(ROUND(table_rows / 1000000, 4), 'M') AS 'Number of Rows',
CONCAT(ROUND(data_length / (1024 * 1024 * 1024), 4), 'G') AS 'Data Size',
CONCAT(ROUND(index_length / (1024 * 1024 * 1024), 4), 'G') AS 'Index Size',
CONCAT(ROUND((data_length + index_length) / (1024 * 1024 * 1024), 4), 'G')
AS 'Total',
CONCAT(ROUND((data_free) / (1024 * 1024 * 1024), 4), 'G')
AS 'Free Size'
FROM information_schema.TABLES
WHERE table_schema LIKE 'database_name';

替换掉database_name为数据库名称,则可以看到表有效数据的占用大小,可释放空间大小等等。

Total>数据库剩余空间,则重建就是安全的。

重建表

重建表使用一下语句:

OPTIMIZE TABLE `table_name`;

该命令会重建表

结果

清理数据过程中

  • 180 IOPS左右浮动
  • CPU在20%左右
  • 磁盘空间无明显增长

重建过程中

  • 6000左右的 IOPS,完全吃满了磁盘性能
  • CPU 40%左右浮动
  • 磁盘初始新增20GB,后续断崖式下降

原文:https://blog.lianglianglee.com/2023/09/12/mysql-big-table-clean-data/

MySQL超大表删除数据过程的更多相关文章

  1. python + mysql 实现表删除数据

    实例如下: import pymysqldef Delete_From(): #打开数据库链接 db = pymysql.connect("localhost","roo ...

  2. MySQL数据库表的数据插入、修改、删除、查询操作及实例应用

    一.MySQL数据库表的数据插入.修改.删除和查询 CREATE DATABASE db0504; USE db0504; CREATE TABLE student ( sno ) NOT NULL ...

  3. Mysql添加更新删除数据-表

    例如 此处拥有一个表名为 uuser 为表添加新数据 ,'); ,'); ,'); 假如只想添加uid和uname ,'小张'); 那么pas自动填充为NULL. 为表更新数据 这里把小王的pas改成 ...

  4. MySQL 创建和删除数据表

    创建MySQL数据表需要以下信息: 表名 表字段名 定义每个表字段 语法 以下为创建MySQL数据表的SQL通用语法: CREATE TABLE table_name (column_name col ...

  5. MySQL多表关联数据同时删除

    MySQL多表关联时的多表删除: DELETE t1, t2FROM    t1LEFT JOIN t2 ON t1.id = t2.idWHERE    t1.id = 25

  6. mysql跨表删除多条记录

    Mysql可以在一个sql语句中同时删除多表记录,也可以根据多个表之间的关系来删除某一个表中的记录. 假定我们有两张表:Product表和ProductPrice表.前者存在Product的基本信息, ...

  7. MySQL单表百万数据记录分页性能优化

    背景: 自己的一个网站,由于单表的数据记录高达了一百万条,造成数据访问很慢,Google分析的后台经常报告超时,尤其是页码大的页面更是慢的不行. 测试环境: 先让我们熟悉下基本的sql语句,来查看下我 ...

  8. MySQL 单表百万数据记录分页性能优化

    文章转载自:http://www.cnblogs.com/lyroge/p/3837886.html 背景: 自己的一个网站,由于单表的数据记录高达了一百万条,造成数据访问很慢,Google分析的后台 ...

  9. oracle 大表删除数据后,回收空间的问题。

    在oracle中由于表结构设计不合理或者需要清楚老数据的时候,经常需要对大表数据进行清理. 一般有一下几种方法: 1. 删除大部分数据,留下小部分数据.我们可以把需要保留的数据转移到别的表,然后再把大 ...

  10. MySQL单表百万数据记录分页性能优化,转载

    背景: 自己的一个网站,由于单表的数据记录高达了一百万条,造成数据访问很慢,Google分析的后台经常报告超时,尤其是页码大的页面更是慢的不行. 测试环境: 先让我们熟悉下基本的sql语句,来查看下我 ...

随机推荐

  1. Qt编写地图综合应用56-实时动态轨迹

    一.前言 实时动态轨迹经历过很多个版本的迭代,此功能最初是一个客户定制的,主要是需要在地图上动态显示GPS的运动轨迹,有个应用场景就是一个带有监控的车子,实时在运动中,后台可以接收到经纬度信息,需要绘 ...

  2. Qt音视频开发10-ffmpeg控制播放

    一.前言 很多人在用ffmpeg做视频流解码的时候,都会遇到一个问题,如何暂停,如果打开的是本地视频文件,暂停你只需要停止解码即可,但是视频流你会发现根本没用,一旦你停止了解码,下次重新解码的时候,居 ...

  3. Log4net的使用教程

    不怎么爱写日志,(就是比较懒),后来遇上bug了找不到问题,才决定好好使用日志 其实说实话,log4配置的那些东西记不太住,但也不需要记住什么.百度就有现成的,自己跟着网上配置好之后,稍微记录一下,为 ...

  4. C#/.NET/.NET Core技术前沿周刊 | 第 19 期(2024年12.23-12.29)

    前言 C#/.NET/.NET Core技术前沿周刊,你的每周技术指南针!记录.追踪C#/.NET/.NET Core领域.生态的每周最新.最实用.最有价值的技术文章.社区动态.优质项目和学习资源等. ...

  5. JMeter:强大的性能测试工具

    揭秘 JMeter:性能测试的得力助手 宝子们,今天咱来唠唠在软件测试这旮旯里超厉害的 JMeter!这玩意儿就像是个超级侦探,能帮咱摸清楚软件系统在人多手杂的时候到底表现咋样. 一.JMeter 是 ...

  6. PHP 安装启用imagick(解决 word press可选的模组imagick未被安装或已被禁用)

    本教程仅适用Windows Servier IIS网站服务器. 我的博客使用IIS搭建,相比Linux,相关的教程格外少.因此让以后的小伙伴也能马上解决问题,分享此方法. 首先需要下载php对应版本的 ...

  7. 内存吞金兽(Elasticsearch)的那些事儿 -- 架构&三高保证

    系列目录 内存吞金兽(Elasticsearch)的那些事儿 -- 认识一下 内存吞金兽(Elasticsearch)的那些事儿 -- 数据结构及巧妙算法 内存吞金兽(Elasticsearch)的那 ...

  8. 一问一答学习PyQT6,对比WxPython和PyQt6的差异

    在我的基于WxPython的跨平台框架完成后,对WxPython的灵活性以及强大功能有了很深的了解,在跨平台的桌面应用上我突然对PyQt6的开发也感兴趣,于是准备了开发环境学习PyQt 6,并对比下W ...

  9. sqlserver空间数据 + c# 实现查询附近的设备

    前言 一个小需求的实现,做一个备忘,个人理解,可能存在错误. 客户有很多设备,这些设备分散在不同的地方,现在需要通过小程序获取附近的(比如1000米)之类的设备列表,以距离排序 第一个想到的的是找百度 ...

  10. biancheng-Spring Cloud Alibaba Sentinel

    http://c.biancheng.net/springcloud/sentinel.html Sentinel 是由阿里巴巴中间件团队开发的开源项目,是一种面向分布式微服务架构的轻量级高可用流量控 ...