MySQL大表设计

存储大规模数据集需要仔细设计数据库模式和索引，以便能够高效地支持各种查询操作。在面对数亿条数据，每条数据包含数百个字段的情况下，以下是我能想到的在设计数据库的时候需要注意的内容，不足之处欢迎各位在评论区批评指正：

1. 数据库设计

表结构设计

垂直分割：将大的表分割成多个相关性较小的表，以减少单个表的字段数量。这有助于提高查询效率和降低冗余。
规范化：合理使用规范化，将重复数据抽取成独立的表，以减小数据冗余。

-- 例子：主表

CREATE TABLE main_data (

    id INT PRIMARY KEY,

    field_1 VARCHAR(255),

    field_2 INT,

    -- 其他字段

);

-- 例子：关联表

CREATE TABLE additional_data (

    id INT PRIMARY KEY,

    main_data_id INT,

    field_201 VARCHAR(255),

    -- 其他字段

    FOREIGN KEY (main_data_id) REFERENCES main_data(id)

);

数据类型选择

根据字段的性质选择适当的数据类型，以减小存储空间和提高查询效率。

2. 索引设计

主键索引：对主键字段创建索引，以提高检索速度。
```
CREATE INDEX idx_main_data_id ON main_data(id);
```
唯一索引：对经常被查询的唯一性字段创建索引，例如，用户名或邮箱。
```
CREATE UNIQUE INDEX idx_unique_field ON main_data(field_1);
```
组合索引：根据查询需求创建组合索引，以提高联合查询的效率。
```
CREATE INDEX idx_combination ON main_data(field_1, field_2);
```
全文索引：对需要进行全文搜索的字段创建全文索引，例如，文本内容。
```
CREATE FULLTEXT INDEX idx_fulltext ON main_data(text_field);
```

3. 分库分表

如果数据量仍然巨大，可以考虑分库分表策略，将数据划分到不同的数据库或表中。

4. 数据分区

根据时间、范围等条件对数据进行分区，以提高查询效率。

5. 垂直分割

对于一些很少使用的字段，可以考虑将其垂直分割到其他表中，只在需要时进行关联查询。

6. 数据库参数调优

调整数据库的参数，如缓冲池大小、连接池大小等，以适应大规模数据的存储和查询需求。

-- 例子：设置缓冲池大小

SET GLOBAL innodb_buffer_pool_size = 2G;

设计大规模数据集的数据库是一个综合性的任务，需要考虑到数据结构、索引、查询需求以及数据库引擎的特性。在设计时，充分了解数据的访问模式，根据查询的特点合理设计索引，通过适当的规范化和分区来优化存储结构，最终达到高效的查询和存储效果。

声明：本作品采用署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)进行许可，使用时请注明出处。

Author: mengbin

blog: mengbin

Github: mengbin92

cnblogs: 恋水无意

腾讯云开发者社区：孟斯特

MySQL大表设计的更多相关文章

mysql大表设计以及优化
MYSQL千万级数据量的优化方法积累https://m.toutiao.com/group/6583260372269007374/?iid=6583260372269007374 MySQL 千万级 ...
优秀后端架构师必会知识：史上最全MySQL大表优化方案总结
本文原作者“ manong”,原创发表于segmentfault,原文链接:segmentfault.com/a/1190000006158186 1.引言 MySQL作为开源技术的代表作之一,是 ...
MySql数据表设计，索引优化，SQL优化，其他数据库
MySql数据表设计,索引优化,SQL优化,其他数据库 1.数据表设计 1.1数据类型 1.2避免空值 1.3text类型优化 2.索引优化 2.1索引分类 2.2索引优化 3.SQL优化 3.1分批 ...
走向DBA[MSSQL篇] 针对大表设计高效的存储过程【原理篇】附最差性能sql语句进化过程客串
原文:走向DBA[MSSQL篇] 针对大表设计高效的存储过程[原理篇] 附最差性能sql语句进化过程客串测试的结果在此处本篇详解一下原理设计背景由于历史原因,线上库环境数据量及其庞大,很多千 ...
[记录]一则清理MySQL大表以释放磁盘空间的案例
一则清理MySQL大表以释放磁盘空间的案例一.基本情况: 1.dbtest库554G,先清理st_online_time_away_ds(37G)表的数据,保留半年的数据: 1)删除的数据:sele ...
MySQL 大表优化方案（长文）
当MySQL单表记录数过大时,增删改查性能都会急剧下降,可以参考以下步骤来优化: 单表优化除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分,拆分会带来逻辑.部署.运维的各种复杂度,一般以整型 ...
从云数据迁移服务看MySQL大表抽取模式
摘要:MySQL JDBC抽取到底应该采用什么样的方式,且听小编给你娓娓道来. 小编最近在云上的一个迁移项目中被MySQL抽取模式折磨的很惨.一开始爆内存被客户怼,再后来迁移效率低下再被怼.MySQL ...
Mysql大表查询优化技巧总结及案例分析
http://www.169it.com/article/3219955334.html sql语句使用基本原则:1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 orde ...
MySQL大表优化方案 Mysql的row_format(fixed与dynamic)
转自:https://mp.weixin.qq.com/s/VY69wWlrVLjRtKU7ULrYGw 当MySQL单表记录数过大时,增删改查性能都会急剧下降,可以参考以下步骤来优化: 单表优化除 ...
使用solr的DIHandler 构建mysql大表全量索引，内存溢出问题的解决方法
solr官方给出的解决方式是: DataImportHandler is designed to stream row one-by-one. It passes a fetch size value ...

随机推荐

Pandas: title函数的作用
代码演示将首字母大写,其余小写效果演示参考链接 https://www.w3resource.com/pandas/series/series-str-title.php
openpyxl 统一表格样式
# 统一表格样式 rows = ws.max_row columns = ws.max_column # print(rows) # print(columns) for row in range(1 ...
IE浏览器不支持TextDecoder()的问题
IE浏览器不支持TextDecoder()方法,因此在进行Arrbuffer转string或中文时,出现未定义的错误.通过网上查找方法,可以通过引用第三方库进行解决. github地址:https:/ ...
带你快速上手HetuEngine
本文分享自华为云社区<[手把手带你玩转HetuEngine](一)HetuEngine快速上手>,作者:HetuEngine九级代言. HetuEngine是什么 HetuEngine是华 ...
Docker下elasticsearch8部署、扩容、基本操作实战(含kibana)
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览本篇记录了用docker搭建ElasticS ...
【Python进阶-PyQt5】00PyQt5简介
0.图形用户界面-开发选择在Python基础的教程中,我们程序的用户交互界面都是运行窗口.这个运行窗口对于我们编程者来说直观明了,但是对于一些相对复杂的程序,用户使用上就会变得十分麻烦.所以,我们要 ...
解决Nginx SSL 代理 Tomcat 获取 Scheme 总是 Http 问题
背景公司之前用的是http,但是出于苹果app审核和服务器安全性问题,要改为https,我们公司用的是沃通的ssl,按照沃通的官方文档提供的步骤完成服务器的配置. 架构上使用了 Nginx +tom ...
web组态可视化编辑器
随着工业智能制造的发展,工业企业对设备可视化.远程运维的需求日趋强烈,传统的单机版组态软件已经不能满足越来越复杂的控制需求,那么实现web组态可视化界面成为了主要的技术路径. 行业痛点对于软件服务商 ...
Record -「CSP-S 2020」赛后总结
其实这次的 CSP 暴露出来了很多问题. 比如策略上的,在 T1 花了太多的时间直接心态爆炸,后面的题只想着把暴力打满.看到 T2 只想着打暴力,根本没有沉下心来想,白白丢了一道(水)题. T3 连暴 ...
win如何根据端口号查找并杀死一个线程
查看端口占用 netstat -ano | findstr "端口号" 杀死一个进程 taskkill /pid 进程号 -f