浅谈MySQL分表
关于分表:顾名思义就是一张数据量很大的表拆分成几个表分别进行存储。
我们先来大概了解以下一个数据库执行SQL的过程:
接收到SQL --> 放入SQL执行队列 --> 使用分析器分解SQL --> 按照分析结果进行数据的提取或者修改 --> 返回处理结果。在这个过程中一般比较花时间的是在队列里的等待时间和执行时间。归根到底就是执行时间,执行时间减少了等待时间自然就变短了。
为了保证数据的完整性,数据库有锁定机制。MySQL中有表锁定和行锁定,MySQL中myisam存储引擎是表锁定,innodb存储引擎是行锁定。分为包含共享锁和独占锁两种。独占锁就是整个数据文件归一个线程所有,其他线程就必须等待。如果数据太多,一次执行的时间太长,特别是在锁表的情况下,就会导致大量的其他SQL等待执行,严重影响系统的正常使用。
另外更新表数据时会导致索引更新,当单表数据量很大时这个过程比较耗时,这就是为什么对大表进行新增操作会比较慢的原因。并且更新表数据会进行表级锁或者行锁,这样就导致其他操作等待。
所以我们将大表拆分为多个字表,那么在更新或者查询数据的时候,压力会分散到不同的表上。由于分表之后每个表的数据较小,不管是查询还是更新都极大的提高了速度,即使出现最坏的“锁表”的情况,那其他表还是可以并行使用。
分表的几种常见策略:
(1)预先估计某个大表的数据量,按实际情况将其均分为固定数量表
根据分表算法,将数据平均分散到不同的数据表中,常见处理方式有对自增id取模、对某个字段进行hash。比如某系统用户预计支持1亿用户数,分100个表存储用户数据,按照自增id的最后2位来分表,对100取模,那么用户数据表就是user_01~user_99。
(2)按时间拆分
对于那种根据时间增长较快的数据可以按时间拆分,根据业务实际情况按天、按月、按年等进行拆分。比如进销存数据,我们可以按月分表,形如jxc_data_201201、jxc_data_201202
(3)按每个表固定记录行数拆分
一般根据自增长ID拆表,每张表存储指定数量的数据。一张表的数据行数到了指定数量,就自动保存到新的表里。
(4)将很久之前的数据迁移到一张历史表
比如日志记录,一般只会查询3个月之内的日志,对于超过三个月的日志记录我们可以迁移到到迁移到另一张表中,比如log_history
(5)分表之后的处理
前面已经说过分表的好处,但哪有那么十全十美的事情呢,这个也不例外。分表之后,麻烦的事情来了,业务数据分散在各个分表中, 之前的业务功能如何保证呢?比如说我要插入一条记录、更新一条记录、删除一条记录、查询统计数据,现在要怎么处理呢。
以用户信息维护功能为例,假设我们有一张表user保存所有的用户信息,拆分到100张表里。我们按照用户表自增id两位尾数取模分表,那么我们的用户表应该是user_01~user_99。
先看新增操作,这时记录还不存在,首先需要获取用户的唯一id,我们可以新建一张表来生成用户的唯一id
CREATE TABLE `seq_user_id` (
`id` BIGINT( 20 ) NOT NULL AUTO_INCREMENT PRIMARY KEY
) ENGINE = MYISAM;
那么要新增用户的时候,先插入一条记录到seq_user_id拿到用户id
有了用户id之后,我们需要知道这个用户数据要插入到哪一张用户表里去。
根据我们的拆表规则计算出实际存储的表名,我们可以写这样一个函数来实现
function get_table_name($id) {
return 'user_'.intval($id)0;
}
这个时候我们就可以进行INSERT操作了。
更新和删除用户信息操作类似了,只是少了生成id的步骤,我们直接根据已有用户的id获取表名再来执行相应的UPDATE和DELETE动作。
如果我们要查询某个用户的信息,使用get_table_name获取实际存储该用户信息的表,然后进行SELECT操作即可完成。
从这个例子看出,我们只要更具分表规则获取到实际的数据表即可,其他与改造之前并没有太多的不一样,好像挺方便的。
但麻烦的事情来了,现在有一个需求要统计2011年12月到2012年3月这段时间注册的用户数,即需要根据时间段来查询用户信息。
想一下,用户信息现在是分散在不同的数据表里了,要怎么做?
联合这么多表一起查询么?想想都觉得恐怖;
又或者是分别到这100张表里分询这个时间段的用户数,然后再累加么?好像也很麻烦
如何你用的user分表的存储引擎是MyISAM,那么恭喜你,这里有一种很简单的处理方法。
利用merge存储引擎将拆分的表合并成一张表
MERGE存储引擎可以将N个子表联合在一起,看成是一个整表,实际上还是N个真实的子表。
在我们查询这个merge表就相当于查询所有字表的数据了,非常方便。当然merge表还是有一定的限制的,具体请查看mysql官方手册。
这里引用MYSQL参考手册中的片段来说明如何操作
下面例子说明如何创建一个MERGE表:
mysql> CREATE TABLE t1 (
-> a INT NOT NULL AUTO_INCREMENT PRIMARY KEY,
-> message CHAR(20));
mysql> CREATE TABLE t2 (
-> a INT NOT NULL AUTO_INCREMENT PRIMARY KEY,
-> message CHAR(20));
mysql> INSERT INTO t1 (message) VALUES ('Testing'),('table'),('t1');
mysql> INSERT INTO t2 (message) VALUES ('Testing'),('table'),('t2');
mysql> CREATE TABLE total (
-> a INT NOT NULL AUTO_INCREMENT,
-> message CHAR(20), INDEX(a))
-> TYPE=MERGE UNION=(t1,t2) INSERT_METHOD=LAST;
注意,一个列在MERGEN表中被索引,但没有被宣告为一个PRIMARY KEY,因为它是在更重要的MyISAM表中。这是必要的,因为MERGE表在更重要的表中的设置上强制非唯一性。
创建MERGE表之后,你可以发出把一组表当作一体来操作的查询:
mysql> SELECT * FROM total;
+---+---------+
| a | message |
+---+---------+
| 1 | Testing |
| 2 | table |
| 3 | t1 |
| 1 | Testing |
| 2 | table |
| 3 | t2 |
+---+---------+
根据这个方法的介绍,我们可以创建一张user的合并表,然后对这张表进行查询即可达到查询分表所有的数据的效果。
当然如果表存储引擎不是MyISAM的话就不能使用这个方法了,分别查询之后合并查询结果。
这里有几点个人建议供参考:
根据业务需求,选择合适的分表方式,尽量减少需要一次查询几个分表的操作
分别对不同的分表进行操作,最后在应用层合并数据。网上有介绍使用多线程分别查询各部分的数据最后合并的,效果应该不错,操作起来有麻烦。
对一些实时性要求不高的数据使用缓存
实例:一步一步实现大表数据分表处理
假设现在系统里有一个进销存日结的数据表,目前一般只需要查询某个月的数据,不用跨月查询,那么这里我们就按月来分表。如果实际业务还是很多地方需要对多张拆分出来的表进行合并查询的,就要重新考虑一下分表的方式了,可以按其他时间段或其他字段来拆分表。
这样每个月的开始都要进行一个操作建立一张以月为单位的新表来存储过去一个月的数据。即每月都要建立一张表比如 jxc_2011_04,jxc_2011_05,jxc_2011_06……
这里有一个小处理,有一张表的表明始终不变,用来保存当前月的数据,这样做的好处是我们的应用程序保存进销存数据时始终是操作jxc这种表,应用的默认查询当月进销存的功能也不用改动,始终是查询的当前月的数据。当然需要查询非当前月的数据时就需要通过时间进行定位实际存储数据的表,当然如果无法避免跨月查询,这个时候就需要应用程序进行合并处理了。
现在来看看实际如何操作,假如我们每天凌晨3点生成前一天的数据到jxc表,比如到2012-07-01的时候,就会进行执行如下操作:
create table struct_jxc like jxc; --
rename table jxc to jxc_2012_06, struct_jxc to jxc;
这样就将jxc表的数据即6月的数据全部迁移到jxc_2012_06表中,jxc现在就是空表,那么从7月1号开始数据都是保存到jxc表中,依次8月1号的时候再进行类似的操作,即可实现了按月分表。
这里用rename的好处就是不需要在进行转移大量数据的时候进行导出和导入的操作,速度会快很多。
写在后面:
关于mysql分表也在学习研究之中,一些问题也没有完善的处理方案,如果你有什么的建议可以告诉我。留下几个问题,希望能起到抛砖引玉的效果。
1、你的业务数据更适合什么分库策略?
2、随着系统使用年限的增加,如果发现最初分配的100张表还是难堪重负,要怎么办?
3、由于数据分布在不同的表中,如何高效的进行负责的查询分析?
4、如果拆分出来的表分布在不同的服务器上,事务又该如何保证?
浅谈MySQL分表的更多相关文章
- 浅谈MySQL多表操作
字段操作 create table tf1( id int primary key auto_increment, x int, y int ); # 修改 alter table tf1 modif ...
- 浅谈mysql配置优化和sql语句优化【转】
做优化,我在这里引用淘宝系统分析师蒋江伟的一句话:只有勇于承担,才能让人有勇气,有承担自己的错误的勇气.有承担错误的勇气,就有去做事得勇气.无论做什么事,只要是对的,就要去做,勇敢去做.出了错误,承担 ...
- 浅谈Mysql共享锁、排他锁、悲观锁、乐观锁及其使用场景
浅谈Mysql共享锁.排他锁.悲观锁.乐观锁及其使用场景 Mysql共享锁.排他锁.悲观锁.乐观锁及其使用场景 一.相关名词 |--表级锁(锁定整个表) |--页级锁(锁定一页) |--行级锁(锁 ...
- 浅谈mysql innodb缓存策略
浅谈mysql innodb缓存策略: The InnoDB Buffer Pool Innodb 持有一个存储区域叫做buffer pool是为了在内存中缓存数据和索引,知道innodb buffe ...
- 浅谈MySQL中优化sql语句查询常用的30种方法 - 转载
浅谈MySQL中优化sql语句查询常用的30种方法 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中使 ...
- php面试专题---MySQL分表
php面试专题---MySQL分表 一.总结 一句话总结: 分库分表要数据达到一定的量级才用,这样才有效率,不然利不一定大于弊,可能会增加一次I/O消耗 1.分库分表的使用量级是多少? 单表行数超过 ...
- mysql分表和表分区详解
为什么要分表和分区? 日常开发中我们经常会遇到大表的情况,所谓的大表是指存储了百万级乃至千万级条记录的表.这样的表过于庞大,导致数据库在查询和插入的时候耗时太长,性能低下,如果涉及联合查询的情况,性能 ...
- MySQL分表(Partition)学习研究报告
最近在开发一个新的项目,可能会产生大数据量,需要对部分表进行分表操作,故来研究学习MySQL的分表功能. 由于实验报告已经写成Exlce文件了,各位看过就直接下载吧:MySQL分表分析报告.xls 以 ...
- Mysql分表和分区的区别、分库分表介绍与区别
分表和分区的区别: 一,什么是mysql分表,分区 什么是分表,从表面意思上看呢,就是把一张表分成N多个小表,具体请看:mysql分表的3种方法 什么是分区,分区呢就是把一张表的数据分成N多个区块,这 ...
随机推荐
- js框架——angular.js
这是一个前端用的框架,使用简单.详细介绍这里就不写了,主要介绍其语法和作用—— 1. 声明一个angular 如果想要使用一个angular代码,则需要在[想要使用angular的范围内写上ng-ap ...
- java 读取URL中的资源
Example13_1.java import java.net.*; import java.io.*; import java.util.*; public class Example13_1 { ...
- UVALive 2323 Modular Multiplication of Polynomials(模拟)
这是一个相对简单的模拟,因为运算规则已经告诉了我们,并且比较简单,不要被吓到…… 思路:多项式除以另外一个多项式,如果能除,那么他的最高次一定被降低了,如果最高次不能被降低,那说明已经无法被除,就是题 ...
- Git学习 -- 自定义Git
忽略特殊文件 在工作区创建.gitignore文件,编写内容 # Windows: Thumbs.db ehthumbs.db Desktop.ini # Python: 忽略Python编译产生的. ...
- 转:webdriver驱动未在默认目录安装的firefox
刚开始用webdriver的朋友一定会苦恼它时常不能启动firefox,很多时候是因为firefox安装在默认路径下.此时,我们有些常用方法,可以解决此问题. [1] System.setProper ...
- Entity Framework 学习初级篇4--Entity SQL
Entity SQL 是 ADO.NET 实体框架 提供的 SQL 类语言,用于支持 实体数据模型 (EDM).Entity SQL 可用于对象查询和使用 EntityClient 提供程序执行的查询 ...
- 区间gcd问题 HDU 5869 离线+树状数组
题目大意:长度n的序列, m个询问区间[L, R], 问区间内的所有子段的不同GCD值有多少种. 子段就是表示是要连续的a[] 思路:固定右端点,预处理出所有的gcd,每次都和i-1的gcd比较,然后 ...
- [jQueryUI] – Chosen:select下拉选择框美化插件及问题
Chosen 是一个支持jquery的select下拉框美化插件,它能让丑陋的.很长的select选择框变的更好看.更方便.不仅如此,它更扩展了select,增加了自动筛选的功能.它可对列表进行分组, ...
- poj 1837 Balance 动态规划 (经典好题,很锻炼思维)
题目大意:给你一个天平,并给出m个刻度,n个砝码,刻度的绝对值代表距离平衡点的位置,并给出每个砝码的重量.达到平衡状态的方法有几种. 题目思路:首先我们先要明确dp数组的作用,dp[i][j]中,i为 ...
- 有向图强连通分支的Tarjan算法讲解 + HDU 1269 连通图 Tarjan 结题报告
题目很简单就拿着这道题简单说说 有向图强连通分支的Tarjan算法 有向图强连通分支的Tarjan算法伪代码如下:void Tarjan(u) {dfn[u]=low[u]=++index//进行DF ...