背景:

  笔者的源数据一张表大概7000多万条,数据大小36G,索引6G,加起来表空间有40G+,类似的表有4张,总计2亿多条

数据库mysql,引擎为innodb,版本5.7,服务器内存256G,物理内存几个T,硬件参数杠杠的,然而处理这些数据踩了不少坑,因

为之前没做过这方面的工作,现在记录下清洗的过程,详细的业务清洗过程和规则均记录在https://gitee.com/yanb618/zhirong/wikis

感受:

  清洗从表名,字段名,字段类型,字段值,索引创建与删除做起,每每看到那秒数慢慢的涨到几千秒,心中一首凉凉唱起来

假设这个速度,一天下来甚至只能处理一张表,之前的工作经历从来没有做过性能调优,正好这次尝到了苦头,记录之

在描述之前先插一句:一定要先做实验,做实验!看执行时间,这么大的一张表,处理不好执行起来得以小时记,连取消都得等好久

预备:

  首先读者要分清楚Innodb和Myisam两种引擎的区别:Innodb有完整的事物支持,行锁,B-Tree/Hash索引;Myisam支持表锁,

不支持事物,有FullText索引,适用于快速读取;

  其次,临时数据能在内存中读写操作的就不要往磁盘上读写

具体:

配置temp_table_sizemax_heap_table_size,下面是官网说明

tmp_table_size

Command-Line Format --tmp-table-size=#
System Variable Name tmp_table_size
Scope Global, Session
Dynamic Yes
Permitted Values Type integer
Default 16777216
Minimum 1024
Maximum 18446744073709551615 The maximum size of internal in-memory temporary tables. This variable does not apply to user-created MEMORY tables.
The actual limit is determined from whichever of the values of tmp_table_size and max_heap_table_size is smaller. If an in-memory temporary table exceeds the limit, MySQL automatically converts it to an on-disk MyISAM table.
Increase the value of tmp_table_size (and max_heap_table_size if necessary) if you do many advanced GROUP BY queries and you have lots of memory. You can compare the number of internal on-disk temporary tables created to the total number of internal temporary tables created by comparing
the values of the Created_tmp_disk_tables and Created_tmp_tables variables. See also Section 8.4.4, “Internal Temporary Table Use in MySQL”.
max_heap_table_size

Command-Line Format --max-heap-table-size=#
System Variable Name max_heap_table_size
Scope Global, Session
Dynamic Yes
Permitted Values (32-bit platforms) Type integer
Default 16777216
Minimum 16384
Maximum 4294967295
Permitted Values (64-bit platforms) Type integer
Default 16777216
Minimum 16384
Maximum 1844674407370954752 This variable sets the maximum size to which user-created MEMORY tables are permitted to grow.
The value of the variable is used to calculate MEMORY table MAX_ROWS values.
Setting this variable has no effect on any existing MEMORY table, unless the table is re-created with a statement such as CREATE TABLE
or altered with ALTER TABLE or TRUNCATE TABLE. A server restart also sets the maximum size of existing MEMORY tables to the global max_heap_table_size value. This variable is also used in conjunction with tmp_table_size to limit the size of internal in-memory tables.
See Section 8.4.4, “Internal Temporary Table Use in MySQL”. max_heap_table_size is not replicated. See Section 17.4.1.20, “Replication and MEMORY Tables”, and Section 17.4.1.38, “Replication and Variables”, for more information.

通常在执行一个耗时很长的更新表操作时查看show processlist命令可以看到如下信息

Copying to tmp table   Copying to tmp table on disk

后者表示内存临时表空间不够,需要往硬盘写,这个很要命,临时查询数据部分在内存部分在硬盘,读写速度骤降

调整这两个参数的大小为40G或者更大都行,你的服务器内存足够大的话可以继续往上调,笔者因为有select into 重构表的需求,

一次读出来的数据很大,因此需要调高默认值

innodb_buffer_pool_size

innodb缓冲池,以下是他的职责场景

* 数据缓存 – 最重要的目的
* 索引缓存 – 使用的是同一个缓冲池
* 缓冲 – 更改的数据(通常称为脏数据)在被刷新到硬盘之前先存放到缓冲
* 存储内部结构 – 一些结构如自适应哈希索引或者行锁也都存储在InnoDB缓冲池

很幸运的是我们的服务器是独立的划分给mysql了,根据坊间经验设置为总可用内存的80%,在这里总内存256G,完成这个清洗

设置100G已经足矣,我们需要这个空间来存临时查询的数据,大数据量下尽量避免临时数据在内存和磁盘间交换带来的IO性能影响

bulk_insert_buffer_size

笔者的清洗方式其中一种是多线程读取+插入,插入采用批量插入的方式,insert into tbl_name values(),(),(),这个参数可以设置插入

的语句的长度大小,java中String一般是没有长度限制的(除非jvm装不下),如果需要大批量的拼接insert语句,需要加大这个参数值

当然这个值其实是专门给Myisam存储引擎设计的,设置这个参数后还要配合设置如下参数一起用才能飞起,否则会直接报错

Max_allowed_packet=100M,最大值1G

其他的参数优化暂时未使用到,如果是正常的小型的项目数据量不是很大的情况下,一般建议是:使用默认值,不要更改,不要更改

道理很简单:很多企业开发时都不会去调这些参数,这也意味着默认设置经历过最多次的压力测试,除非你已经到了不得不去优化的地步

Mysql千万级数据性能调优配置的更多相关文章

  1. [转帖]Mysql 最简单的参数调优配置

    http://blog.jobbole.com/113659/ 我并不期望成为一个专家级的 DBA,但是,在我优化 MySQL 时,我推崇 80/20 原则,明确说就是通过简单的调整一些配置,你可以压 ...

  2. mysql 开启日志与性能调优

    #查看日期情况 #show variables like '%general%'; #开启日志 #SET GLOBAL general_log = 'On'; #指定日志文件 #SET GLOBAL  ...

  3. MySql(十一):MySQL性能调优——常用存储引擎优化

    一.前言 MySQL 提供的非常丰富的存储引擎种类供大家选择,有多种选择固然是好事,但是需要我们理解掌握的知识也会增加很多.本章将介绍最为常用的两种存储引擎进行针对性的优化建议. 二.MyISAM存储 ...

  4. MySQL性能调优与架构设计——第11章 常用存储引擎优化

    第11章 常用存储引擎优化 前言: MySQL 提供的非常丰富的存储引擎种类供大家选择,有多种选择固然是好事,但是需要我们理解掌握的知识也会增加很多.每一种存储引擎都有各自的特长,也都存在一定的短处. ...

  5. MySQL性能调优与架构设计——第1章 MySQL 基本介绍

    第1章 MySQL 基本介绍 前言:作为最为流行的开源数据库软件之一, MySQL 数据库软件已经是广为人知了. 但是为了照顾对MySQL还不熟悉的读者,这章我们将对 MySQL 做一个简单的介绍.主 ...

  6. MySQL性能调优与架构设计——第6章 MySQL Server 性能的相关因素

    第6章 MySQL Server 性能的相关因素 前言 大部分人都一致认为一个数据库应用系统(这里的数据库应用系统概指所有使用数据库的系统)的性能瓶颈最容易出现在数据的操作方面,而数据库应用系统的大部 ...

  7. MySQL性能调优与架构设计——第3章 MySQL存储引擎简介

    第3章 MySQL存储引擎简介 3.1 MySQL 存储引擎概述 MyISAM存储引擎是MySQL默认的存储引擎,也是目前MySQL使用最为广泛的存储引擎之一.他的前身就是我们在MySQL发展历程中所 ...

  8. mysql监控、性能调优及三范式理解

    原文:mysql监控.性能调优及三范式理解 1监控 工具:sp on mysql     sp系列可监控各种数据库 2调优 2.1 DB层操作与调优 2.1.1.开启慢查询 在My.cnf文件中添加如 ...

  9. 性能调优案例分享:Mysql的cpu过高

    性能调优案例分享:Mysql的cpu过高   问题:一个系统,Mysql数据库,数据量变大之后.mysql的cpu占用率很高,一个测试端访问服务器时mysql的cpu占用率为15% ,6个测试端连服务 ...

随机推荐

  1. Immutable 想破坏它也没办法

    上一章讲的是线程互斥的synchronized实现,这样做会影响性能,如何才能做到既不影响性能又能达到线程安全的目的呢,就是使用状态绝不会改变的类,Java中的应用就是String类. public ...

  2. 【第三周读书笔记】浅谈node.js中的异步回调和用js-xlsx操作Excel表格

    在初步学习了node.js之后,我发现他的时序问题我一直都很模糊不清,所以我专门学习了一下这一块. 首先我们来形象地理解一下进程和线程: 进程:CPU执行任务的模块.线程:模块中的最小单元. 例如:c ...

  3. JS对象 神奇的Math对象,提供对数据的数学计算。注意:Math 对象是一个固有的对象,无需创建它,直接把 Math 作为对象使用就可以调用其所有属性和方法。这是它与Date,String对象的区别

    Math对象 Math对象,提供对数据的数学计算. 使用 Math 的属性和方法,代码如下: <script type="text/javascript"> var m ...

  4. Task 暂停与继续

    static void Main(string[] args) { CancellationTokenSource tokenSource = new CancellationTokenSource( ...

  5. JavaScript工作原理

    HTML代码所表示的文档是一种静态文档,几乎没有交互功能,很难使页面成为动态页面.增加脚本语言,可使数据发送到服务器之前先进行处理和校验,动态地创建新的Web内容,更重要的是,引入脚本语言使我们有了事 ...

  6. 共享商业&技术红利,阿里云SaaS加速器让天下没有难做的SaaS

    9月26日,阿里云在2019杭州云栖大会上发布了SaaS加速器3.0版“一云多端”多个应用平台,展示了阿里云给伙伴带来的多种商业和技术红利.阿里云SaaS加速器将帮助伙伴做好SaaS,卖好SaaS:帮 ...

  7. day12 bash中的if、for

    bash 变量bash 定义:x= 作用:记录状态 规则:字母开头,后面可以接字母.数字.下划线 export args:将变量定义为全局变量 $$[]:括号中可以进行简单的数学整数运算,可以用ech ...

  8. 线性dp,后缀处理——cf1016C好题

    绝对是好题 #include<bits/stdc++.h> using namespace std; #define maxn 300005 #define ll long long ll ...

  9. C++仿函数和回调函数的异同

    C++回调函数(callback)与仿函数(functor)的异同 c++仿函数 functor C++仿函数和回调函数的异同

  10. 求1到n这n个整数间的异或值 (O(1)算法)

      问题:求1到n这n个整数间的异或值,即 1 xor 2 xor 3 ... xor n 记 f(x, y) 为x到y的所有整数的异或值. 对 f(2^k, 2^(k+1) -1) (注意文章中的  ...