.Net Core导入千万级数据至Mysql

最近在工作中，涉及到一个数据迁移功能，从一个txt文本文件导入到MySQL功能。

数据迁移，在互联网企业可以说经常碰到，而且涉及到千万级、亿级的数据量是很常见的。大数据量迁移，这里面就涉及到一个问题：高性能的插入数据。

今天我们就来谈谈MySQL怎么高性能插入千万级的数据。

我们一起对比以下几种实现方法：

前期准备

订单测试表

CREATE TABLE `trade` (

  `id` VARCHAR(50) NULL DEFAULT NULL COLLATE 'utf8_unicode_ci',

  `trade_no` VARCHAR(50) NULL DEFAULT NULL COLLATE 'utf8_unicode_ci',

  UNIQUE INDEX `id` (`id`),

  INDEX `trade_no` (`trade_no`)

)

COMMENT='订单'

COLLATE='utf8_unicode_ci'

ENGINE=InnoDB;

测试环境

操作系统：Window 10 专业版

CPU：Inter(R) Core(TM) i7-8650U CPU @1.90GHZ 2.11 GHZ

内存：16G

MySQL版本：5.7.26

实现方法：

1、单条数据插入

这是最普通的方式，通过循环一条一条的导入数据，这个方式的缺点很明显就是每一次都需要连接一次数据库。

实现代码：

//开始时间

var startTime = DateTime.Now;

using (var conn = new MySqlConnection(connsql))

{

    conn.Open();



    //插入10万数据

    for (var i = 0; i < 100000; i++)

    {

        //插入

        var sql = string.Format("insert into trade(id,trade_no) values('{0}','{1}');",

            Guid.NewGuid().ToString(), "trade_" + (i + 1)

            );

        var sqlComm = new MySqlCommand();

        sqlComm.Connection = conn;

        sqlComm.CommandText = sql;

        sqlComm.ExecuteNonQuery();

        sqlComm.Dispose();

    }



    conn.Close();

}



//完成时间

var endTime = DateTime.Now;



//耗时

var spanTime = endTime - startTime;

Console.WriteLine("循环插入方式耗时：" + spanTime.Minutes + "分" + spanTime.Seconds + "秒" + spanTime.Milliseconds + "毫秒");

10万条测试耗时：

上面的例子，我们是批量导入10万条数据，需要连接10万次数据库。我们把SQL语句改为1000条拼接为1条，这样就能减少数据库连接，实现代码修改如下：

//开始时间
var startTime = DateTime.Now;
using (var conn = new MySqlConnection(connsql))
{
conn.Open();

//插入10万数据
var sql = new StringBuilder();
for (var i = 0; i < 100000; i++)
{
//插入
sql.AppendFormat("insert into trade(id,trade_no) values('{0}','{1}');",
Guid.NewGuid().ToString(), "trade_" + (i + 1)
);

//合并插入
if (i % 1000 == 999)
{
var sqlComm = new MySqlCommand();
sqlComm.Connection = conn;
sqlComm.CommandText = sql.ToString();
sqlComm.ExecuteNonQuery();
sqlComm.Dispose();
sql.Clear();
}
}

conn.Close();
}

//完成时间
var endTime = DateTime.Now;

//耗时
var spanTime = endTime - startTime;
Console.WriteLine("循环插入方式耗时：" + spanTime.Minutes + "分" + spanTime.Seconds + "秒" + spanTime.Milliseconds + "毫秒");

10万条测试耗时：

通过优化后，原本需要10万次连接数据库，只需连接100次。从最终运行效果看，由于数据库是在同一台服务器，不涉及网络传输，性能提升不明显。

2、合并数据插入

在MySQL同样也支持，通过合并数据来实现批量数据导入。实现代码：

//开始时间
var startTime = DateTime.Now;
using (var conn = new MySqlConnection(connsql))
{
conn.Open();

//插入10万数据
var sql = new StringBuilder();
for (var i = 0; i < 100000; i++)
{
if (i % 1000 == 0)
{
sql.Append("insert into trade(id,trade_no) values");
}

//拼接
sql.AppendFormat("('{0}','{1}'),", Guid.NewGuid().ToString(), "trade_" + (i + 1));

//一次性插入1000条
if (i % 1000 == 999)
{
var sqlComm = new MySqlCommand();
sqlComm.Connection = conn;
sqlComm.CommandText = sql.ToString().TrimEnd(',');
sqlComm.ExecuteNonQuery();
sqlComm.Dispose();
sql.Clear();
}
}
conn.Close();
}

//完成时间
var endTime = DateTime.Now;

//耗时
var spanTime = endTime - startTime;
Console.WriteLine("合并数据插入方式耗时：" + spanTime.Minutes + "分" + spanTime.Seconds + "秒" + spanTime.Milliseconds + "毫秒");

10万条测试耗时：

通过这种方式插入操作明显能够提高程序的插入效率。虽然第一种方法通过优化后，同样的可以减少数据库连接次数，但第二种方法：合并后日志量(MySQL的binlog和innodb的事务让日志)减少了，降低日志刷盘的数据量和频率，从而提高效率。同时也能减少SQL语句解析的次数，减少网络传输的IO。

3、MySqlBulkLoader插入

MySQLBulkLoader也称为LOAD DATA INFILE，它的原理是从文件读取数据。所以我们需要将我们的数据集保存到文件，然后再从文件里面读取。

实现代码：

//开始时间
var startTime = DateTime.Now;
using (var conn = new MySqlConnection(connsql))
{
conn.Open();
var table = new DataTable();
table.Columns.Add("id", typeof(string));
table.Columns.Add("trade_no", typeof(string));

//生成10万数据
for (var i = 0; i < 100000; i++)
{
if (i % 500000 == 0)
{
table.Rows.Clear();
}

//记录
var row = table.NewRow();
row[0] = Guid.NewGuid().ToString();
row[1] = "trade_" + (i + 1);
table.Rows.Add(row);

//50万条一批次插入
if (i % 500000 != 499999 && i < (100000 - 1))
{
continue;
}
Console.WriteLine("开始插入:" + i);

//数据转换为csv格式
var tradeCsv = DataTableToCsv(table);
var tradeFilePath = System.AppDomain.CurrentDomain.BaseDirectory + "trade.csv";
File.WriteAllText(tradeFilePath, tradeCsv);

#region 保存至数据库
var bulkCopy = new MySqlBulkLoader(conn)
{
FieldTerminator = ",",
FieldQuotationCharacter = '"',
EscapeCharacter = '"',
LineTerminator = "\r\n",
FileName = tradeFilePath,
NumberOfLinesToSkip = 0,
TableName = "trade"
};

bulkCopy.Columns.AddRange(table.Columns.Cast<DataColumn>().Select(colum => colum.ColumnName).ToList());
bulkCopy.Load();
#endregion
}

conn.Close();
}

//完成时间
var endTime = DateTime.Now;

//耗时
var spanTime = endTime - startTime;
Console.WriteLine("MySqlBulk方式耗时：" + spanTime.Minutes + "分" + spanTime.Seconds + "秒" + spanTime.Milliseconds + "毫秒");

10万条测试耗时：

注意：MySQL数据库配置需开启：允许文件导入。配置如下：

secure_file_priv=

性能测试对比

针对上面三种方法，分别测试10万、20万、100万、1000万条数据记录，最终性能入如下：

最后

通过测试数据看，随着数据量的增大，MySqlBulkLoader的方式表现依旧良好，其他方式性能下降比较明显。MySqlBulkLoader的方式完全可以满足我们的需求。

文章首发于公众号【编程乐趣】，欢迎大家关注。

.Net Core导入千万级数据至Mysql的更多相关文章

mysql循环插入千万级数据
mysql使用存储过程循环插入大量数据,简单的一条条循环插入,效率会很低,需要考虑批量插入. 测试准备: 1.建表: CREATE TABLE `mysql_genarate` ( `id` ) NO ...

mysql千万级数据表，创建表及字段扩展的几条建议
一:概述当我们设计一个系统时,需要考虑到系统的运行一段时间后,表里数据量大约有多少,如果在初期,就能估算到某几张表数据量非常庞大时(比如聊天消息表),就要把表创建好,这篇文章从创建表,增加数据,以及 ...

LOAD DATA INFILE读取CSV中一千万条数据至mysql
作业要求构建一个关系模式和课本中的关系movies(title,year,length,movietype,studioname,producerC)一样的关系,名称自定,在这个关系中插入1000万 ...

MySQL千万级数据JDBC插入
案例语句: String sql = "LOAD DATA LOCAL INFILE '" + dataFilepath + "' into table " + ...

提高mysql千万级数据SQL的查询优化30条总结
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...

BATJ解决千万级别数据之MySQL 的 SQL 优化大总结
引用在数据库运维过程中,优化 SQL 是 DBA 团队的日常任务.例行 SQL 优化,不仅可以提高程序性能,还能减低线上故障的概率. 目前常用的 SQL 优化方式包括但不限于:业务层优化.SQL 逻 ...

千万级别数据量mysql优化策略
表结构优化 1. 使用独立表空间独立表空间指的是innodb表的一种数据结构独占表空间: 每一个表都将会生成以独立的文件方式来进行存储,每一个表都有一个.frm表描述文件,还有一个.ibd文件 ...

Mongodb千万级数据在python下的综合压力测试及应用探讨
http://rfyiamcool.blog.51cto.com/1030776/1329351

MySQL 创建千万集数据
- MySQL测试任务:使用存储过程,往表中插入千万级数据,根据索引优化速度 -- 1.使用索引查询 -- 2.不使用索引查 -- 3.比较两者查询速度的差异 1.创建数据和索引 1.创建索引测试表 ...

随机推荐

攻防世界 reverse 666
666 2019_UNCTF main int __cdecl main(int argc, const char **argv, const char **envp) { char myen; / ...

C# 8.0 宝藏好物 Async streams
之前写<.NET gRPC 核心功能初体验>,利用gRPC双向流做了一个打乒乓的Demo,存储消息的对象是IAsyncEnumerable<T>,这个异步可枚举泛型接口支撑了g ...

java例题_23 递归求年龄
1 /*23 [程序 23 求岁数] 2 题目:有 5 个人坐在一起,问第五个人多少岁,他说比第 4 个人大 2 岁.问第 4 个人岁数,他说比第 3 个 3 人大 2 岁.问第三个人,又说比第 2 ...

Asp.Net Core 5 REST API 使用 JWT 身份验证 - Step by Step
翻译自 Mohamad Lawand 2021年1月22日的文章 <Asp Net Core 5 Rest API Authentication with JWT Step by Step> ...

「SpringBoot2.4新特性」jar自动瘦身
自动分析瘦身 Spring Boot 项目最终构建处理 JAR 包大小一直是个诟病,需要把所有依赖包内置最终输出可运行的 jar. 当然可以使用其他的插件扩展实现依赖 JAR 和可运行 jar 分 ...

还在使用MyBatis Generator？试试这个工具
代码生成在企业软件开发过程中,大多数时间都是面向数据库表的增删改查开发.通过通用的增删改查代码生成器,可以有效的提高效率,降低成本:把有规则的重复性劳动让机器完成,解放开发人员. MyBatis G ...

poi 操作 PPT，针对 PPTX--图表篇
poi 操作 PPT,针对 PPTX--图表篇目录 poi 操作 PPT,针对 PPTX--图表篇 1.读取 PPT 模板 2.替换标题 4.替换图表数据接下来对 ppt 内的图表进行操作,替换图 ...

Day11_57_自定义泛型
自定义泛型 package com.shige.Generic; //自定义泛型 public class CustomizeGeneric { public static void main(Str ...

ReentrantLock理解
原文出处:http://www.yund.tech/zdetail.html?type=1&id=ef94715a2838f06ab03b8621c23d1613 作者:jstarseven ...

记一次 .NET医疗布草API程序内存暴涨分析
一:背景 1. 讲故事我在年前写过一篇关于CPU爆高的分析文章再记一次应用服务器 CPU 暴高事故分析 ,当时是给同济做项目升级,看过那篇文章的朋友应该知道,最后的结论是运维人员错误的将 IIS ...

.Net Core导入千万级数据至Mysql

.Net Core导入千万级数据至Mysql的更多相关文章

随机推荐

热门专题