作业要求

构建一个关系模式和课本中的关系movies(title,year,length,movietype,studioname,producerC)一样的关系，名称自定，在这个关系中插入1000万条记录。

注：关系movies的主键为(title,year)。

要求如下：

在尽可能短的时间内完成；
只允许使用原生的SQL，不允许将SQL作为嵌入语言，也不允许使用其他语言如C#、Python等来完成；
提交你的详细解决方案和结果。

分析

查资料得知

可以将多条insert语句合并为一句，即一条insert语句插入多个元组
可以通过事务，减少每条insert语句都建立新事务带来的时空消耗
可以通过load data infile将文件中的数据导入mysql，似乎很快的样子

虽然第三种似乎很快，但在此我采用了前两种方法，通过合并+事务实现。

我通过python模拟生成（只改变主键中的year，以生成不同元组）1千万条记录，将其组织为$10\times100\times10000$条记录添加进movies，分成10个事务，每个事务里有100条insert语句，每条insert语句插入10000个元组。

实现

实现思路如下：

复制原数据库moviedb至newmoviedb
设置max_allowed_packet，以保证一条insert语句可以插入足够多的元组
用python生成一条一次插入10000个元组的insert语句
用python生成一个包含100条insert语句的事务，保存至sql文件
用navicat运行该sql文件

至此就可以实现一百万条记录的插入了（我的电脑耗时327s？好像很慢！？）

之后再套一层循环就可以继续完成1千万条记录的插入了。

下面给出可能用到的步骤（如未说明，代码默认为控制行或者mysql环境下的命令）：

复制数据库

创建新数据库newmoviedb

登录并创建数据库：

mysql -u root -p

CREATE DATABASE `newmoviedb` DEFAULT CHARACTER SET UTF8 COLLATE UTF8_GENERAL_CI;

复制moviedb至newmoviedb

复制数据库

mysqldump moviedb -u root -pchouxianyu --add-drop-table | mysql newmoviedb -u root -pchouxianyu

上面chouxianyu是我的mysql密码

进入newmoviedb

use newmoviedb;

设置max_allowed_packet

设置max_allowed_packet为100M

set global max_allowed_packet = 100*1024*1024;

删除movies中所有元素（调试用）

delete from movies;

生成一条insert语句

下边是insert.py

insertStr = "INSERT INTO movies(title,year,length,movietype,studioname,producerC) VALUES"

value1_str = "('mymovietitle',"

# j

value2_str = ",120,'sciFic','MGM',100)"

# ,;

num_value = 10000

f = open(r'C:\Users\Cxy\Documents\Navicat\MySQL\Servers\MySQL\newmoviedb\insertRow.sql', 'w')  # 清空文件内容再写

f.write(insertStr)

for j in range(1, num_value):

    f.write(value1_str)

    f.write(str(j))

    f.write(value2_str)

    f.write(',')

f.write(value1_str)

f.write(str(num_value))

f.write(value2_str)

f.write(';')

f.close()

生成一个事务

以下是transaction.py

transaction_begin_str = "START TRANSACTION;\n"

transaction_end_str = "COMMIT;\n"

insertStr = "INSERT INTO movies(title,year,length,movietype,studioname,producerC) VALUES"

value1_str = "('mymovietitle',"

# j

value2_str = ",120,'sciFic','MGM',100)"

# ,;

num_value = 10000

num_sql = 100

# 打开文件

f = open(r'C:\Users\Cxy\Documents\Navicat\MySQL\Servers\MySQL\newmoviedb\transaction.sql', 'w')  # 清空文件内容再写

# 将SQL语句写入文件

f.write(transaction_begin_str)

for i in range(1, num_sql+1):

    f.write(insertStr)

    for j in range(1, num_value):

        f.write(value1_str)

        f.write(str(i*num_value*10+j))

        f.write(value2_str)

        f.write(',')

    f.write(value1_str)

    f.write(str(i*num_value*10+num_value))

    f.write(value2_str)

    f.write(';\n')

f.write(transaction_end_str)

# 关闭文件

f.close()

参考链接

https://www.cnblogs.com/freefei/p/7679991.html

https://blog.csdn.net/qq_22855325/article/details/76087138

https://blog.csdn.net/weixin_44595372/article/details/88723191

https://zhidao.baidu.com/question/185665472.html

https://www.cnblogs.com/zhangjpn/p/6231662.html

https://www.cnblogs.com/wangcp-2014/p/8038683.html

https://blog.csdn.net/gb4215287/article/details/82669785

作者：@臭咸鱼

转载请注明出处：https://www.cnblogs.com/chouxianyu/

欢迎讨论和交流!

python+mysql:实现一千万条数据插入数据库的更多相关文章

[MyBatis]五分钟向MySql数据库插入一千万条数据批量插入用时5分左右
本例代码下载:https://files.cnblogs.com/files/xiandedanteng/InsertMillionComparison20191012.rar 我的数据库环境是mys ...
LOAD DATA INFILE读取CSV中一千万条数据至mysql
作业要求构建一个关系模式和课本中的关系movies(title,year,length,movietype,studioname,producerC)一样的关系,名称自定,在这个关系中插入1000万 ...
mysql自定义函数并在存储过程中调用，生成一千万条数据
mysql 自定义函数,生成 n 个字符长度的随机字符串 -- sql function delimiter $$ create function rand_str(n int) returns VA ...
java之5分钟插入千万条数据
虽说不一定5分钟就插入完毕,因为取决去所插入的字段,如果字段过多会稍微慢点,但不至于太慢.10分钟内基本能看到结果. 之前我尝试用多线程来实现数据插入(百万条数据),半个多小时才二十多万条数据. 线程 ...
orcle 如何快速插入百万千万条数据
有时候做实验测试数据用到大量数据时可以用以下方法插入: 方法一:使用xmltable create table bqh8 as select rownum as id from xmltable('1 ...
MySQL制作具有千万条测试数据的测试库
有时候需要制造一些测试的数据,以mysql官方给的测试库为基础,插入十万,百万或者千万条数据.利用一些函数和存储过程来完成. 官方给的测试库地址:https://github.com/datachar ...
复杂业务下向Mysql导入30万条数据代码优化的踩坑记录
从毕业到现在第一次接触到超过30万条数据导入MySQL的场景(有点low),就是在顺丰公司接入我司EMM产品时需要将AD中的员工数据导入MySQL中,因此楼主负责的模块connector就派上了用场. ...
mysql查询随机几条数据(速度快)
MySql查询随机几条数据想到了 Max RAND 这几个函数用以下2种办法都可以实现查询. 速度还行. 几十万数据左右, 没有什么问题. SELECT * FROM `news` WHERE i ...
腾讯面试题,js处理1千万条数据排序并且页面不卡顿
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

随机推荐

使用expect实现自动交互，shell命令行自动输入，脚本自动化，变量引用，expect spawn执行带引号命令，expect 变量为空，不生效，不能匹配通配符*，函数，数组
背景有需求,在允许命令或者脚本跳出交互行,需要进行内容输入,但需要人手动输入,不是很方便,此时可以通过expect来实现自动互动交互. expect是一个自动交互功能的工具,可以满足代替我们实际工作 ...
【计算机视觉】Selective Search for Object Recognition论文阅读2
Selective Search for Object Recognition 是J.R.R. Uijlings发表在2012 IJCV上的一篇文章.主要介绍了选择性搜索(Selective Sear ...
解决maven打包时，会编译特定文件导致文件不可用
<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-resou ...
【转帖】一文看懂docker容器技术架构及其中的各个模块
一文看懂docker容器技术架构及其中的各个模块原创波波说运维 2019-09-29 00:01:00 https://www.toutiao.com/a6740234030798602763/ ...
Neo4j常用的查询
一.添加操作 1. 添加节点: create (x:学生{studentId:'1001',age:20} 2. 添加关系: 对现有的节点添加关系 match (x:学生{studentId:1001 ...
Windows Terminal Preview v0.7 Release
Windows Terminal Preview v0.7 Release The following key bindings are included by default within this ...
HTTP最常见的请求头
HTTP最常见的请求头如下: l Accept:浏览器可接受的MIME类型: l Accept-Charset:浏览器可接受的字符集: l Accept ...
nginx如何调用PHP(nginx+php运行原理)
采用nginx+php作为webserver的架构模式,在现如今运用相当广泛.然而第一步需要实现的是如何让nginx正确的调用php.由于nginx调用php并不是如同调用一个静态文件那么直接简单,是 ...
k8s基础环境搭建
环境准备服务器之间时间同步 1. 关闭防火墙 systemctl stop firewalld setenforce 0 2. 设置yum源三台机器都要设置一个master两个node节点下 ...
微信小程序页面滚动到指定位置
页面上有一个元素或者组件,id 为 comment 则: var me = this; var query = wx.createSelectorQuery().in(me); query.selec ...

python+mysql:实现一千万条数据插入数据库

作业要求

分析

实现

复制数据库

创建新数据库newmoviedb

复制moviedb至newmoviedb

进入newmoviedb

设置max_allowed_packet

删除movies中所有元素（调试用）

生成一条insert语句

生成一个事务

参考链接

python+mysql:实现一千万条数据插入数据库的更多相关文章

随机推荐

热门专题