教你做一个牛逼的DBA(在大数据下)
一、基本概念
大数据量下,搞mysql,以下概念需要先达成一致
1)单库,不多说了,就是一个库
2)分片(sharding),水平拆分,用于解决扩展性问题,按天拆分表
3)复制(replication)与分组(group),用于解决可用性问题
4)分片+分组,这是大数据量下,架构的实际情况
二、大数据量下,mysql常见问题及解决思路
1)常见问题
如何保证可用性?
各色各异的读写比,怎么办?
如何做无缝倒库,加字段,扩容?
数据量大,怎么解决?
2)解决思路
2.1)可用性解决思路:复制
读库可用性
从库复制多个,例如:1主2从
从库挂了读主库,例如:1主1从
写库可用性
双主模式
“双主”当“主从”用
2.2)读写比解决思路-针对特性做设计
读多些少场景:提升读性能,3种常见方案:
a)新建索引提高读性能,什么小技巧?
b)读写分离,增加从库扩展读性能
c)增加缓存来扩展读性能
a)b)c)方案存在什么问题?
如何解决这些问题?
读写相近场景:不要使用缓存,考虑水平切分
写多读少场景:不要使用缓存,考虑水平切分
2.3)无缝倒库[扩容,增加字段,数据迁移]
追日志方案
a)记录写日志
b)倒库
c)倒库完毕
d)追日志
e)追日志完毕+数据校验
f)切库
双写方案
a)服务双写
b)倒库
c)倒库完毕+数据校验
d)切库
2.4)数据量大解决思路:拆库
三、数据库拆库实战
四类场景覆盖99%拆库业务
a)“单key”场景,用户库如何拆分: user(uid, XXOO)
b)“1对多”场景,帖子库如何拆分: tiezi(tid, uid, XXOO)
c)“多对多”场景,好友库如何拆分: friend(uid, friend_uid, XXOO)
d)“多key”场景,订单库如何拆分:order(oid, buyer_id, seller_id, XXOO)
1)用户库如何拆分
用户库,10亿数据量
user(uid, uname, passwd, age, sex, create_time);
业务需求如下
a)1%登录请求 => where uname=XXX and passwd=XXX
b)99%查询请求 => where uid=XXX
结论:“单key”场景使用“单key”拆库
2)帖子库如何拆分
帖子库,15亿数据量
tiezi(tid, uid, title, content, time);
业务需求如下
a)查询帖子详情(90%请求)
SELECT * FROM tiezi WHERE tid=$tid
b)查询用户所有发帖(10%请求)
SELECT * FROM tiezi WHERE uid=$uid
结论:“1对多”场景使用“1”分库,例如帖子库1个uid对应多个tid,则使用uid分库,tid生成时加入分库标记
3)好友库如何拆分
好友库,1亿数据量
friend(uid, friend_uid, nick, memo, XXOO);
业务需求如下
a)查询我的好友(50%请求) => 用于界面展示
SELECT friend_uid FROM friend WHERE uid=$my_uid
b)查询加我为好友的用户(50%请求) => 用户反向通知
SELECT uid FROM friend WHERE friend_uid=$my_uid
结论:“多对多”场景,使用数据冗余方案,多份数据使用多种分库手段
4)订单库如何拆分
订单库,10亿数据量
order(oid, buyer_id, seller_id, order_info, XXOO);
业务需求如下
a)查询订单信息(80%请求)
SELECT * FROM order WHERE oid=$oid
b)查询我买的东东(19%请求)
SELECT * FROM order WHERE buyer_id=$my_uid
c)查询我卖出的东东(1%请求)
SELECT * FROM order WHERE seller_id=$my_uid
结论:“多key”场景一般有两种方案
a)方案一,使用2和3综合的方案
b)方案二,1%的请求采用多库查询
四、分库后业务实战
分库后出现的问题:单库时mysql的SQL功能不再支持了
1)海量数据下,mysql的SQL怎么玩
不会这么玩
a)各种联合查询
b)子查询
c)触发器
d)用户自定义函数
e)“事务”都用的很少
原因:对数据库性能影响极大
2)分库后,IN查询怎么玩
用户库如何进行uid的IN查询
user(uid, uname, passwd, age, sex, photo, create_time, ...);
Partition key:uid
查询需求:IN查询:WHERE uid IN(1,2,3,4,5,6)
解决方案:服务做MR
方案一:直接分发
方案二:拼装成不同SQL,定位不同的库
3)分库后,非Partition key的查询怎么玩
方案一:业务方不关心数据来自哪个库,可以只定位一个库
例如:有头像的用户查询
方案二:结果集只有一条数据,业务层做分发,只有一条记录返回就返回
例如:用户登录时,使用userName和passwd的查询
4)分库后,夸库分页怎么玩?
问题的提出与抽象:ORDER BY xxx OFFSET xxx LIMIT xxx
a)按时间排序
b)每页100条记录
c)取第100页的记录
单机方案
ORDER BY time OFFSET 10000 LIMIT 100
分库后的难题:如何确认全局偏移量
分库后传统解决方案,查询改写+内存排序
a)ORDER BY time OFFSET 0 LIMIT 10000+100
b)对20200条记录进行排序
c)返回第10000至10100条记录
优化方案一:增加辅助id,以减少查询量
a)技术上,引入特殊id,作为查询条件(或者带入上一页的排序条件)
b)业务上,尽量禁止跨页查询
单库情况
a)第一页,直接查
b)得到第一页的max(id)=123(一般是最后一条记录)
c)第二页,带上id>123查询:WHERE id>123 LIMIT 100
多库情况
a)将WHERE id>xxx LIMIT 100分发
b)将300条结果排序
c)返回前100条
优点:避免了全局排序,只对小量记录进行排序
优化方案二:模糊查询
a)业务上:禁止查询XX页之后的数据
b)业务上:允许模糊返回 => 第100页数据的精确性真这么重要么?
优化方案三:终极方案,查询改写与两段查询
方案一和方案二在业务上都有所折衷,前者不允许跨页查询,后者数据精度有损失,解决夸库分页问题的终极方案是,将order by + offset + limit进行查询改写,分两段查询。
五、总结
《概念》
单库、分片、复制、分组
《常见问题及解决思路》
1)可用性,解决思路是冗余(复制)
2)读写比
2.1)读多些少:用从库,缓存,索引来提高读性能
2.2)业务层控制强制读主来解决从库不一致问题
2.3)双淘汰来解决缓存不一致问题
2.4)读写相近,写多读少:不要使用缓存,该怎么整怎么整
3)无缝导库
3.1)写日志追数据
3.2)双写
4)数据量大,解决思路是分片(拆库)
《四大类拆库思路》
1)用户库,“单key”场景使用“单key”拆库
2)帖子库,“1对多”场景使用“1”分库,例如帖子库1个uid对应多个tid,则使用uid分库,tid生成时加入分库标记
3)好友库,“多对多”场景,使用数据冗余方案,多份数据使用多种分库手段
4)订单库,“多key”场景一般有两种方案
4.1)方案一,使用2和3综合的方案
4.2)方案二,1%的请求采用多库查询
《拆库后业务实战》
1)不这么玩:联合查询、子查询、触发器、用户自定义函数、夸库事务
2)IN查询怎么玩
2.1)分发MR
2.2)拼装成不同SQL语句
3)非partition key查询怎么玩
3.1)定位一个库
3.2)分发MR
4)夸库分页怎么玩
4.1)修改sql语句,服务内排序
4.2)引入特殊id,减少返回数量
4.3)业务优化,禁止跨页查询,允许模糊查询
教你做一个牛逼的DBA(在大数据下)的更多相关文章
- 【项目总结】:怎样做一个牛逼的Team leader?
随着ITOO高校云平台3.1项目的结束,我们各种各样的总结也被提上了日程. Java版本号的全部开发者和Donet版本号的全部开发者坐在一起进行了关于项目开发管理的头脑风暴,尽管我仅仅是Donet开发 ...
- 手把手教你做一个python+matplotlib的炫酷的数据可视化动图
1.效果图 2.注意: 上述资料是虚拟的,为了学习制作动图,构建的. 仅供学习, 不是真实数据,请别误传. 当自己需要对真实数据进行可视化时,可进行适当修改. 3.代码: #第1步:导出模块,固定 i ...
- 做一个牛XX的身份证号验证类(支持15位和18位)
原文:做一个牛XX的身份证号验证类(支持15位和18位) #region 是否合法的中国身份证号码 protected bool IsChineseID() { if (str.Length == 1 ...
- 3分钟教你做一个iphone手机浏览器
3分钟教你做一个iphone手机浏览器 第一步:新建一个Single View工程: 第二步:新建好工程,关闭arc. 第三步:拖放一个Text Field 一个UIButton 和一个 UIWebV ...
- 如何设计一个牛逼的API接口
在日常开发中,总会接触到各种接口.前后端数据传输接口,第三方业务平台接口.一个平台的前后端数据传输接口一般都会在内网环境下通信,而且会使用安全框架,所以安全性可以得到很好的保护.这篇文章重点讨论一下提 ...
- R数据分析:跟随top期刊手把手教你做一个临床预测模型
临床预测模型也是大家比较感兴趣的,今天就带着大家看一篇临床预测模型的文章,并且用一个例子给大家过一遍做法. 这篇文章来自护理领域顶级期刊的文章,文章名在下面 Ballesta-Castillejos ...
- csvkit---python一个牛逼到不行的csv处理库
先吐槽一下:不管是百度还是谷歌,查来查去除了官方文档之外就没有任何可以借鉴的例子,虽然官方文档写的挺好的.但是我一直以为是在python语言的方式运行的,结果是以命令行的方式运行的,搞得我还以为这个库 ...
- 【酷Q插件制作】教大家做一个简单的签到插件
酷Q插件已经有很多了,社区分享一大堆,不过还是自己写才有乐趣,哈哈.不得不吐槽一下,酷Q竟然不更新了,出了个酷Q pro,还收费!!诶.不过这也影响不了咱写插件的心情,今天教大家写一个酷Q签到插件,虽 ...
- TTS-零基础入门-10分钟教你做一个语音功能
在本片博客正式開始之前,大家先跟我做一个简单的好玩的 小语音. 新建一个文本文档,然后再文档里输入这样 一句话 CreateObject("SAPI.SpVoice").Spea ...
随机推荐
- poj 3090 Visible Lattice Points 法利系列||通过计
因为图像关于对角线对称.所以我们仅仅看下三角区域. 将x轴看做分母,被圈的点看成分子 依次是{1/2},{1/3,1/2},{1/4,3/4},{1/5,2/5,3/5,4/5} 写成前缀和的形式就是 ...
- Java InputStream、String、File相互转化 --- good
String --> InputStreamByteArrayInputStream stream = new ByteArrayInputStream(str.getBytes()); Inp ...
- ListView与GridView优化
前言 ListView是Android中最常用的控件,通过适配器来进行数据适配然后显示出来,而其性能是个很值得研究的话题.本文与你一起探讨Google I/O提供的优化Adapter方案,欢迎大家交流 ...
- Xcode 4.5( iOS6 SDK)、旧版本号cocos2d,支持iPhone5解析度
支持iPhone5全屏 1假设没有支持iPhone5是否.直接运行程序可以准备提交.开放iPhone5模拟器,你会发现上面有黑色的程序.没有矩形. 2真正运行该程序时,.你会发现程序回程屏幕高度.它是 ...
- Android 项目框架功能整理记录
用来记录自己在项目用到的框架工具等,新人新记录,希望能对你搭建项目有所帮助 常用框架整理 视图绑定注解框架: butterKnife 网络请求框架: OKHttp 图片加载缓存:Gilde 数据格式解 ...
- Focusable 属性和IsTabStop 属性之间的关系
原文:Focusable 属性和IsTabStop 属性之间的关系 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/Libby1984/article ...
- 微信公众平台通用接口API指南
微信公众平台 通用接口 消息接口 开发模式 作者:方倍工作室原文:http://www.doucube.com/index.php?m=Article&a=show&id=5 微信公众 ...
- javaS的tring和androidS的tring区别是什么?
这是今天阿里电话面试被问到的,在之前确实没有想过(一直以为是一样的),于是面试完之后,我立即打开了源代码,对这两个String类进行了比較,以下是我的发现. 首先我观察了这两个String类所导入的包 ...
- Gradle Android它自己的编译脚本教程的最新举措(提供demo源代码)
一.前言 Gradle 是以 Groovy 语言为基础,面向Java应用为主.基于DSL(领域特定语言)语法的自己主动化构建工具. 上面这句话我认为写得非常官方,大家仅仅需知道Gradle能够用来an ...
- EF codefirst第一篇
一直以来喜欢dbfirst 因为简单,一直不明白为什么codefirst会是主流,根据对ddd的学习终于知道了codefirst的目的 本文是对博客园 小崔的笔记本 文章 EF实体框架之CodeFi ...