Mysql数据分片技术(一)—

1为什么需要数据分片技术

数据库产品的市场
在互联网行业内，绝大部分开发人员都会遇到数据表的性能问题，特别是当单表数据量特别大的时候，就算是添加索引，性能也都差强人意。对于亿级别的数据，有些大的企业会选择性能非常好的Oracle，Oracle属于中大型数据库，能在数据量大的情况下有好的数据处理性能。但是绝大部分小型企业是不会选择昂贵的oracle的，况且几乎所有的互联网巨头公司选择的也都是免费开源的Mysql数据库。

蚂蚁金服自主研发的金融级分布式关系数据库OceanBase前一阵子打破了Oracle保持了9年的记录，刷新了国际数据库知名排行榜的最高记录。因此对于未来数据库产品市场的变化，我相信国内的厂商是能够开辟出数据库市场份额的。

mysql小型数据库瓶颈
互联网行业企业都倾向于mysql数据库，虽说mysql单表能支持亿级别的数据量，加上索引优化下查询速度，勉强能使用，但是对于追求性能和效率的互联网企业，这是远远不够的。Mysql数据库单表数据量到达500万左右，达到性能最佳点，可是对于需要亿级别的业务来说，500万是远远不够的。既然数据放在一个位置不行，那我们就把数据拆分放到多个位置。如果寻找数据位置的时间成本忽略不计的话，那么在亿级别的数据量里面查询数据的时间成本就相当于从单张表力查询数据的时间成本一样。这就是分库分表的最初思想。

2. 四种数据分区方式简述 (笔者这里只探讨水平分区)

对表进行分区，是为了能最大限度的提高数据库的IO能力，分区能让数据库将同一张表中的数据放在不同的磁盘下，提高数据库IO能力，类似多核多线程的思想。因此分区能提高单标的高并发能力。

range分区
range方式创建分区语句如下：

#根据表结构中的时间字段来作为分区键，如下的year()方法，或者to_char()方法

create table table_range(

　　   id int(11),

　　   amt int(11) unsigned not null,

　　   created_on datetime

　　)partition by range(year(created_on))(

　　partition p2018 values less than (2018),

　　partition p2019 values less than (2019),

　　partition p2020 values less than (2020)

　　partition pdefault values less than maxvalue  #MAXVALUE 表示最大的可能的整数值

　　)；

#或者使用id作为范围分区

create table table_range(

　　   id int(11),

　　   amt int(11) unsigned not null,

　　   created_on datetime

　　)partition by range(id)(

　　partition p10000 values less than (10000),

　　partition p20000 values less than (20000),

　　partition p30000 values less than (30000)

　　partition pdefault values less than maxvalue  #MAXVALUE 表示最大的可能的整数值

　　)；

范围分区

所有范围区间不能重叠。
查询条件里包括分区键，免全表扫描，分区表查询都应该注意这个。
分区键一般是时间或是唯一的索引值，一般都会在每条数据上计算并保存分区字段。

list分区

create table table_list(

　　id int(11),

　　type int(4)

　　)(partition by list (type)

　　partition p0 values in (1,3,5,7,9),

　　partition p1 values in (2,4,6,8,0)

);

分区键的值是个有限的枚举值集合，分区字段值都要在枚举列表里找到。
list分区可用在对业务类型进行分割切分。

hash分区

CREATE TABLE table_hash(

    id INT NOT NULL,

    name VARCHAR(30),

    id_card INT

)

PARTITION BY HASH(id_card)

PARTITIONS 4;

hash分区可以自定义hash算法
分区数量要符合2的n次方倍数，扩容的时候就不会发生大规模数据的迁移
hash值只能是整数类型字段或者整数表达式

key
key分区类似hash分区，只不过key分区不能自定义hash规则，只能使用mysql的方法。

CREATE TABLE table_key (

    id INT NOT NULL,

    name CHAR(5),

    date DATE

)

PARTITION BY LINEAR KEY (id)

PARTITIONS 3;

key分区键除了blob和txt类型字段不能使用之外，其他类型都能作为分区键。
key分区是mysql自带的一种分区方式

3. 分片技术原理概述

分区，这两个字的关键在于分这个字，即分而治之的思想。

分而治之，体现在软件设计的各个方面：

应用层服务：采用载均衡服务器+服务集群的方式，拆分系统访问流量，均分请求的响应和处理压力。

服务层：采用分布式架构，利用分布式框架，注册中心+客户端负载均衡机制，耦合各个服务的依赖关系。采用消息队列，耦合并拆分复杂的业务流程。

数据层：一个数据库部署在一台服务器上，数据库的性能就会被服务器资源所限制，那么我们就需要拆分数据库的读写请求流量，这时候分库的方法就是我们所需要的解决方案。

总而言之，言而总之；数据分片技术的核心思想就是拆分流量，拆分压力。

那么对于分区而言，它拆分的是磁盘IO的压力，我们要有个基本的认识，每台服务器的磁盘存储是由很多歌磁盘组成的磁盘阵列构成，每个磁盘的IO能力是有上限的，而mysql单表数据是放在一个文件内的，因此单表的所有读写压力都会聚集到一个磁盘。但是分区表会将分区放在不同的磁盘上，那么对单表的读写压力就会拆分到多个磁盘上。

因此，分区就是拆分磁盘IO压力。

4. 对单表分区的时机

表数据大，且增量数据也多，业务只会访问靠后的热点数据，例如即时通讯聊天记录数据。
单表查询速度慢，需要优化查询速度。
经常维护数据，定期删除历史数据，可以通过分区的方式来实现。
因单表情况下数据IO集中在少量的设备上，需要均衡IO，把数据访问压力平均据分配到各个硬件设备，改善系统性能。

Mysql数据分片技术(一)——初识表分区的更多相关文章

MySQL数据库分片技术调研
将这段时间了解的MySQL分片技术和主从复制只是整理清楚画了思维导图记录一下,希望能给需要的人一些帮助 P.S.:个人整理,可能会有错误之处,还望指出~ 要解决的问题 1.海量数据的操作超出单表.单库 ...
Zabbix的history相关数据表数据太大，执行表分区操作过程
一.查询zabbix数据库大小 mysql> select table_schema, concat(truncate(sum(data_length)/1024/1024,2),' mb') ...
Logstash学习之路（四）使用Logstash将mysql数据导入elasticsearch（单表同步、多表同步、全量同步、增量同步）
一.使用Logstash将mysql数据导入elasticsearch 1.在mysql中准备数据: mysql> show tables; +----------------+ | Table ...
WebGIS项目中利用mysql控制点库进行千万条数据坐标转换时的分表分区优化方案
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/ 1. 背景项目中有1000万条历史案卷,为某地方坐标系数据,我们的真实 ...
MySQL数据库优化技术之数据库表的设计
三范式介绍表的范式:只有符合的第一范式,才能满足第二范式,进一步才能满足第三范式. 1. 第一范式:表的列具有原子性,不可再分解.只要是关系型数据库都自动满足第一范式.数据库的分类:关系型数据库:My ...
以 280W 数据为依据。对比SQL2008 表分区前和分区后的 T_SQL 效率
一: 数据库的优化一直项目后期的重中之重,特别是当单表数据庞大到1000W时候.各种SQL语句执行效率都会慢很多.SQL 效率与索引,行数据,列数据,以及Where 刷选字段类型 (效率整数型大于 ...
Kettle ETL 来进行mysql 数据同步——试验环境搭建(表中无索引，无约束，无外键连接的情况)
今天试验了如何在Kettle的图形界面(Spoon)下面来整合来mysql 数据库中位于不同数据库中的数据表中的数据. 试验用的数据表是customers: 第三方的数据集下载地址是:http://w ...
mysql数据类型和java对应表(copy)
[说明] 资料来自:http://dev.mysql.com/doc/connector-j/5.1/en/connector-j-reference-type-conversions.html My ...
MongoDB入门三步曲3－－部署技术：主备、副本集和数据分片
mongodb部署--主备.副本及数据分片主备复制副本集数据分片主备复制主备复制是最基本的一种多点部署方案,在读写分离.热备份.数据恢复等方面具有重要作用. 在真实的生产环境,主备库肯定需要 ...

随机推荐

使用vs2008的一个问题 2008-01-08 13:13
昨天在写控制台版的一个管理系统.语言是:c++ ,开发工具是:vs 2008 .功能简单的描述一下,它是就是简单的查询,插入,删除等操作,操作的对象是一个xml文件. 这时我要需要一个命令行参数,根据 ...
浏览器自动化的一些体会9 webBrowser控件之零碎问题3
WebBrowser控件最大的优点是可以轻松嵌入win form程序中,但是微软好像对这个控件没什么兴趣,这么多年了还没有改进,结果造成一堆问题. 1. 不支持https 2. 缺省模拟ie 7,如果 ...
Linux进程管理与性能监控
1. 进程管理工具这一节我们介绍进程管理工具: 使用进程管理工具,我们可以查询程序当前的运行状态,或终止一个进程: 任何进程都与文件关联:我们会用到lsof工具(list opened files) ...
解决SpringBoot页面跳转无法访问静态资源的问题
初学SpringBoot,写项目的时候遇到了问题,原本的页面是这样的但启动项目后是这样的这是因为thymeleaf中引入静态资源及模板需要使用到 th:xxx 属性,否则无法在动态资源中访问静态资 ...
Nginx进阶使用-负载均衡原理及配置实例
介绍跨多个应用程序实例的负载平衡是一种用于优化资源利用率,最大化吞吐量,减少延迟和确保容错配置的常用技术.可以将Nginx用作非常有效的HTTP负载平衡器,以将流量分配到多个应用程序服务器,并使用N ...
算法-排序（1）k路平衡归并与败者树
const int MaxValue=; //根据实际情况选择最大值 void kwaymerge(Element *r,int k){ int i,q; r=new Element[k]; //在败 ...
团队作业1——团队展示&选题（银河超级无敌舰队）
一.团队展示 1.队名: 银河超级无敌舰队 2.队员学号: 姓名学号郭奕材(组长) 3118004959 刘婉儿(PM) 3218004994 辜仰淦 3118004957 王煜墉 3118004 ...
Java动态代理（二）——jdk动态代理
一.什么是动态代理?代理类在程序运行时创建的代理方式被成为动态代理.动态代理的代理类并不是在Java代码中定义的,而是在运行时根据我们在Java代码中的“指示”动态生成的.相比于静态代理, 动态代理的 ...
基于.NetCore3.1系列 —— 日志记录之初识Serilog
一.前言对内置日志系统的整体实现进行了介绍之后,可以通过使用内置记录器来实现日志的输出路径.而在实际项目开发中,使用第三方日志框架(如: Log4Net.NLog.Loggr.Serilog.Sen ...
Spring整合WebSocket
WebSocket,干什么用的?我们有了HTTP,为什么还要用WebSocket?很多同学都会有这样的疑问.我们先来看一个场景,大家的手机里都有微信,在微信中,只要有新的消息,这个联系人的前面就会有一 ...

Mysql数据分片技术(一)——初识表分区

Mysql数据分片技术(一)——初识表分区的更多相关文章

随机推荐

热门专题