对于传统的关系数据库如oracle,在大量数据导入方面的效率,我们一般有一个大概的认知,即1分钟以内可以导入千万条数据,而对于MySQL数据库,普遍观点以为性能相对较差,尤其时对于千万级别的数据量,几十分钟、几个小时,都是可能的。是否如此,本文会给出答案

在普遍去IOE的今天,最难的去O也已经势在必行,所以探讨测试一下MySQL的大数据量导入非常有必要。事实上我们的各个新建项目由于采用了MySQL数据库,在备份恢复时,便会面临大量数据的逻辑导出与导入需求。

恰好笔者手头有一个3000多万行的数据记录,SQL文本格式如下:

DROP TABLE IF EXISTS `tablename`;
CREATE TABLE `tablename` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`code` varchar(100) DEFAULT NULL,
`init_value` text,
`master_id` int(11) DEFAULT NULL,
`code_id` varchar(11) DEFAULT NULL,
`end_value` text,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=137259138 DEFAULT CHARSET=utf8;
INSERT INTO `tablename` VALUES ('40601438', 'CF_0105', '121589425857.3000', '56814', null, '121589425857.3000');
INSERT INTO `tablename` VALUES ('40601439', 'CF_0105', '113776588.1400', '56815', null, '113776588.1400');
INSERT INTO `tablename` VALUES ('40601440', 'CF_0105', '357661339.7200', '56816', null, '357661339.7200');
...后面都是INSERT语句

一、命令行导入方式

首先使用最原始的命令行方式测试,如下:

mysql -uroot -ppasswd' --default-character-set=utf8 dbname < mysql.sql

为了提高插入效率,去掉索引,改为批量commit提交,此处特意编写了一个脚本,用于修改原SQL文件,如下:

cat > modify_file.sh << EOF
#!/bin/sh
filename=\$1 # 定义文件名字
var1="COMMIT;" # 定义变量
var2="START TRANSACTION;" # 定义变量
sed -i ''\$2' i\'"\$var2" \$filename # 第n行前添加"START TRANSACTION;"
cat \$filename|awk 'NR%1000==0{printf("%09d\n", NR)}'|while read line #每隔1000行获取行号
do
echo "\$line"
sed -i ''\$line'a '"\$var1""\n""\$var2"'' \$filename # 向文件插入两行,分别是"COMMIT;"和"START TRANSACTION;"
done
sed -i '\$a\'"\$var1" \$filename # 最后1行添加"COMMIT;"
EOF

一个简单的导入脚本,用于记录时间:

vim dumpin.sh
echo "Start ...("`date "+%Y%m%d-%H:%M:%S"`")"
mysql -uroot -p'passwd' --default-character-set=utf8 dbname < $1
echo "Completed.("`date "+%Y%m%d-%H:%M:%S"`")" chmod +x dumpin.sh

取出前50万行:

head -500000 mysql.sql > mysql2.sql

修改文件内容,加入批量提交语句:

./modify_file.sh mysql2.sql 35

执行导入:

logfile=dumpin.log_"`date "+%Y%m%d_%H-%M"`"
./dumpin.sh mysql2.sql > $logfile 2>&1 &

测试结果如下:

去索引,每1000条批量提交,50万行耗时9分钟

Start ...(20220224-21:49:58)
Completed.(20220224-21:58:17)

去索引,逐行提交,50万行耗时19分钟

Start ...(20220224-22:14:13)
Completed.(20220224-22:33:37)

可见这个命令行的导入方式,时间太长,几乎无法接受,也没有太大的提升空间。

二、LOAD DATA导入方式

关于LOAD DATA的详细介绍请网搜,此处不再赘述。

首先,修改原SQL文件格式为LOADDATA可用的csv文本格式,此处先用前500万行测试:

head -5000000 mysql.sql > mysql2.sql
sed -i "s/INSERT INTO \`tablename\` VALUES (//g" mysql2.sql
sed -i "s/);//g" mysql2.sql

经过以上自动编辑处理,原SQL文件内容成为如下格式:

'40601438', 'CF_0105', '121589425857.3000', '56814', null, '121589425857.3000'
'40601439', 'CF_0105', '113776588.1400', '56815', null, '113776588.1400'

然后,执行导入,如下所示:

mysql -uroot -p'passwd' dbname --local-infile
LOAD DATA LOCAL INFILE '/root/mysql2.sql'
INTO TABLE tablename
FIELDS TERMINATED BY ', '
ENCLOSED BY "'"
LINES TERMINATED BY '\n'
IGNORE 34 lines;

期间遭遇3948、2068错误,自行网搜修改配置即可解决,最终测试结果如下:

500万行,有2索引导入耗时:3 min 35.32 sec

500万行,无 索引导入耗时:3 min 5.99 sec


可见百万行级别load时少数索引影响不大,基本是数分钟内可以导入百万条记录

必须说明,由于这是在笔记本电脑虚机的测试结果,相信生产环境会快很多。

好,现在你还会说,MySQL数据库大批量数据导入性能较差吗?

下一步继续测试这3000万条数据全部导入的情况。

MySQL快速导入千万条数据(1)的更多相关文章

  1. python+mysql:实现一千万条数据插入数据库

    作业要求 构建一个关系模式和课本中的关系movies(title,year,length,movietype,studioname,producerC)一样的关系,名称自定,在这个关系中插入1000万 ...

  2. python连接mysql循环插入千万条数据脚本

    之前都是在mysql的存储过程中插入数据,毕竟mysql语法函数有限,很多都有限制.突然想到学了python正好可以练练手.首先需要安装pymysql模块包(模块包安装请自行百度) pip insta ...

  3. MySQL 快速添加百万条数据

    需要向数据库添加100W条测试数据,直接在普通表中添加速度太慢,可以使用内存表添加,然后将内存表数据复制到普通表 创建表 # 内存表 DROP TABLE IF EXISTS `test_memory ...

  4. 【JDBC】使用Spring提供的JDBCTemplate通过Statement向MySql数据库插入千万条数据,耗时4m55s,使用insert语句批量插入方式二

    这回依然是使用 insert批量插入这种方式 insert into emp(name,age,cdate) values ('A' , 20, '2019-10-13 00:00:00'), ('B ...

  5. 【JDBC】使用Spring提供的JDBCTemplate通过PrepareStatement向MySql数据库插入千万条数据,耗时32m47s,速度提升有限

    数据库环境还和原来一样,只是从Statement换成了PrepareStatement,都说PrepareStatement因为预编译比Statement快,但是实际运行真快不了多少. 代码如下: p ...

  6. mysql快速导入5000万条数据过程记录(LOAD DATA INFILE方式)

    mysql快速导入5000万条数据过程记录(LOAD DATA INFILE方式) 首先将要导入的数据文件top5000W.txt放入到数据库数据目录/var/local/mysql/data/${d ...

  7. mysql自定义函数并在存储过程中调用,生成一千万条数据

    mysql 自定义函数,生成 n 个字符长度的随机字符串 -- sql function delimiter $$ create function rand_str(n int) returns VA ...

  8. LOAD DATA INFILE读取CSV中一千万条数据至mysql

    作业要求 构建一个关系模式和课本中的关系movies(title,year,length,movietype,studioname,producerC)一样的关系,名称自定,在这个关系中插入1000万 ...

  9. [MyBatis]五分钟向MySql数据库插入一千万条数据 批量插入 用时5分左右

    本例代码下载:https://files.cnblogs.com/files/xiandedanteng/InsertMillionComparison20191012.rar 我的数据库环境是mys ...

  10. orcle 如何快速插入百万千万条数据

    有时候做实验测试数据用到大量数据时可以用以下方法插入: 方法一:使用xmltable create table bqh8 as select rownum as id from xmltable('1 ...

随机推荐

  1. 第一章 : Linux入门

    1. 概述 ‍ ​​ ‍ 2. Linux 和 Windows 区别 ‍ ​​ ‍ 3. Centos 下载地址 ‍ 网易镜像:http://mirrors.163.com/centos/7/isos ...

  2. SQL SERVER 错误捕捉与事务

    在SQL server (MSSQL)写代码中,不管是一段SQL代码,还是存储过程等,有的时候总会遇见程序报错,导致系统崩溃, 与C#同理,SQL SERVER 也提供了回滚与错误捕捉,事务比较复杂, ...

  3. 基于ChatGPT上线《你说我猜》小游戏

    摘要 AIGC.GPT.休闲小游戏三者可以怎么结合? AIGC.GPT与小游戏的结合为游戏体验带来了新的可能性.AIGC(Artificial Intelligence Game Content)作为 ...

  4. Button按钮:得到鼠标焦点后自动放大,失去鼠标焦点后自动缩小_

    作用 程序设计过程中,我们经常需要增加一些动态效果,以此改善用户的使用体验.本文将介绍一种方法,动态显示按钮状态,使其得到鼠标焦点后自动放大,失去鼠标焦点后自动缩小. 效果图 先放一张原图(鼠标还未移 ...

  5. redis 使用 nologin 用户启动

    添加不可登录的redis用户 sudo useradd -M -s /sbin/nologin redis 为redis新建目录,并设置属性 mkdir -p /data/redis &&am ...

  6. VueX报错:Cannot read property 'commit' of undefined

    原因 main.js文件中没有引入store 解决方案 添加如下代码即可 import store from "./store"; new Vue({ el: '#app', ro ...

  7. 深入理解Java虚拟机(JVM):原理、结构与性能优化

    1. 介绍 Java虚拟机(JVM)是Java程序的核心执行引擎,负责将Java源代码编译成可执行的字节码,并在运行时负责解释执行字节码或将其编译成本地机器代码.本文将深入探讨JVM的原理.结构以及性 ...

  8. WPF 入门笔记 - 07 - MVVM示例

    滴咚,大家好久不见.好就没写东西了,鸽着鸽着就无了... 回到正题,上篇文章说完命令提了一嘴MVVM模式直接就上MVVMLight这些程序的框架了,虽然也没说多少,但还是有点不好过渡,这篇对MVVM做 ...

  9. c# 如何将程序加密隐藏?

    下面将介绍如何通过LiteDB将自己的程序进行加密,首先介绍一下LiteDB. LiteDB LiteDB是一个轻量级的嵌入式数据库,它是用C#编写的,适用于.NET平台.它的设计目标是提供一个简单易 ...

  10. ignite

    目录 简介 运行 制作vm文件系统 制作vm基础文件系统文件 创建contianerdClient 创建cniInstance 拉取基础镜像 创建基础文件系统文件 制作vm内核文件 Create vm ...