https://www.jianshu.com/p/1141be233bb2

一、TiKV存储

简述

通过单机的 RocksDB，TiKV 可以将数据快速地存储在磁盘上；通过 Raft，将数据复制到多台机器上，以防单机失效。数据的写入是通过 Raft 这一层的接口写入，而不是直接写 RocksDB。通过实现 Raft，TiKV 变成了一个分布式的 Key-Value 存储，少数几台机器宕机也能通过原生的 Raft 协议自动把副本补全，继续让业务无感知的对外服务。

Region

将整个 Key-Value 空间分成很多段，每一段是一系列连续的 Key，将每一段叫做一个 Region，并且会尽量保持每个 Region 中保存的数据不超过一定的大小，目前在 TiKV 中默认是 96MB。每一个 Region 都可以用 [StartKey，EndKey) 这样一个左闭右开区间来描述。

以 Region 为单位，将数据分散在集群中所有的节点上，并且尽量保证每个节点上服务的 Region 数量差不多
以 Region 为单位做 Raft（数据）的复制和成员管理：一个 Region 的多个 Replica 会保存在不同的节点上，构成一个 Raft Group。其中一个 Replica 会作为这个 Group 的 Leader，其他的 Replica 作为 Follower。所有的读和写都是通过 Leader 进行，（写）再由 Leader 复制给 Follower。

MVCC(多版本并发控制)

TiKV 的 MVCC 实现是通过在 Key 后面添加版本号来实现。可以直接通过 RocksDB 的 API: SeekPrefix(Key-Version)，定位到第一个大于等于这个 Key_Version 的位置。

分布式 ACID 事务

TiKV 的事务采用的是 Google 在 BigTable 中使用的事务模型：Percolator
能保证要么全部成功，要么全部失败，不会出现的中间状态和脏数据。

二、TiDB如何使用TiKV

问题：如何存储数据？哪些作为key，哪些作为value？
对于一个 Table 来说，需要存储的数据包括三部分：

表中每一行的数据，以下简称表数据
表中所有索引的数据，以下简称索引数据
表的元信息
对于表中每一行的数据，既可以选择行存也可以选择列存，两者各有优缺点，适用不同场景。
TiDB 的首要目标是 OLTP 业务，要满足这类业务的需求，数据库需要支持快速的针对单行或者某些行的增、删、改、查等操作，所以 TiKV 的行存是比较合适该场景的。
从 TiDB 3.1 开始（包括 TiDB 4.0），为了能够满足用户复杂的实时分析场景（OLAP？），TiDB 提供了一个叫做** TiFlash 的列存引擎**，它提供了列式的存储模式和快速的分析能力。列存的映射关系比较简单，这里暂且不表。

2.1 索引

索引数据，TiDB 同时支持主键和二级索引（包括唯一索引和非唯一索引）。在 OLTP 场景下，好的索引能够极大的提升 SQL 查询的性能，降低集群的整体负载。

对于 Insert 语句，既需要将表数据写入 KV 存储，也需要构造和存储对应的索引数据。
对于 Update 语句，需要在更新表数据的同时，也更新对应的索引数据（如果有必要的话）。
对于 Delete 语句，需要在删除表数据的同时，也删除对应的索引数据（如果有必要的话）。
对于 Select 语句，情况会复杂一些。用户希望数据库提供快速读取一行数据的能力，所以每行表数据最好有一个唯一 ID （显示或隐式的 ID）方便快速读取。其次用户也可能会连续地读取多行数据，比如 select * from user。最后还有通过索引读取数据的需求，对索引的使用可能是基于唯一索引或者主键的等值查询（业界常说的“点查”）或者是范围查询。
当然，在有了 TiFlash 以后，全表扫更适合在 TiFlash 上进行，因为列式存储的优势，这种场景中它能提供更快的读取性能。

2.1.1 行数据的key设计

TiDB会为全集群生成唯一表ID，为表内数据生成唯一的行ID（有整型主键则是主键作为行ID），则数据如下：

Key:   tablePrefix{TableID}_recordPrefixSep{RowID}

Value: [col1, col2, col3, col4]

2.1.2 索引数据的 Key-Value 映射关系

TiDB 为表中每个索引分配了一个索引 ID，其中：
对于需要满足唯一性约束的主键或者唯一索引，按照如下规则编码成 (Key, Value) 键值对：

Key:   tablePrefix{tableID}_indexPrefixSep{indexID}_indexedColumnsValue

Value: RowID

对于不需要满足唯一性约束的普通二级索引，按照如下规则编码成 (Key, Value) 键值对：

Key:   tablePrefix{TableID}_indexPrefixSep{IndexID}_indexedColumnsValue_{RowID}

Value: null

2.2 元数据

另外存储于某个key中，将元信息编码后存储

2.3 SQL 层简介

TiDB 的 SQL层，即tidb-server，负责将 SQL 翻译成 KV 操作，转发给共享的分布式 KV 存储层 TiKV，并组装返回结果，最终返回查询结果。
举例：select count(*) from user where name='test'，像这样一句语句，如果将数据返回到tiDB进行过滤、计数会浪费网络IO和无意义计算。可以将这类操作下放到tiKV，粗略描述如下图：

image.png

实际流程较复杂：

image.png

用户的 SQL 请求会直接或者通过Load Balancer发送到 tidb-server，tidb-server 会解析MySQL Protocol Packet，获取请求内容，然后做语法解析、查询计划制定和优化、执行查询计划获取和处理数据。数据全部存储在 TiKV 集群中，所以在这个过程中 tidb-server 需要和 TiKV 交互，获取数据。最后 tidb-server 需要将查询结果返回给用户。

三、关于调度

在这两个组件的后面，还有一个叫做 PD（Placement Driver）的组件，虽然不直接和业务接触，但是这个组件是整个集群的核心，负责全局元信息的存储以及 TiKV 集群负载均衡调度。

3.1 为什么要进行调度

image.png

整个系统是在动态变化，Region 分裂、节点加入、节点失效、访问热点变化等情况会不断发生，整个调度系统也需要在动态中不断向最优状态前进，因此我们需要一个中心节点，来对系统的整体状况进行把控和调整，所以有了 PD 这个模块。

3.2 调度的需求整理

作为一个分布式高可用存储系统，必须满足：副本数量不能多也不能少、副本需要分布在不同的机器上、新加节点后可以将其他节点上的副本迁移过来、节点下线后需要将数据迁移走。
作为一个良好的分布式系统，需要优化：维持整个集群的 Leader 分布均匀、维持每个节点的储存容量均匀、维持访问热点分布均匀控制 Balance 的速度，避免影响在线服务；管理节点状态，包括手动上线/下线节点，以及自动下线失效节点。
上述调度需求看似复杂，但是整理下来最终落地的无非是下面三件事：

增加一个 Replica
删除一个 Replica
将 Leader 角色在一个 Raft Group 的不同 Replica 之间 transfer。
刚好 Raft 协议能够满足这三种需求，通过 AddReplica、RemoveReplica、TransferLeader 这三个命令，可以支撑上述三种基本操作。

3.3 信息收集

每个 TiKV 节点（Store）会定期向 PD 汇报节点的整体信息。
每个 Raft Group 的 Leader 会定期向 PD 汇报信息。

3.4 调度的策略

保障一个 Region 的 Replica 数量正确：在掉节点或恢复节点时，增删replica
保障一个 Raft Group 中的多个 Replica 不在同一个位置：位置包括物理机器、单个机架、单个机房。可以给节点配置 lables，需要在 Replica 分配的时候尽量保证不会有一个 Region 的多个 Replica 所在结点有相同的位置标识。
副本在 Store 之间的分布均匀分配：维持每个节点上面，副本数量的均衡，会使得总体的负载更均衡。
Leader 数量在 Store 之间均匀分配： Raft 协议要读取核写入都通过 Leader 进行，所以计算的负载主要在 Leader 上面，PD 会尽可能将 Leader 在节点间分散开。
访问热点数量在 Store 之间均匀分配：每个 Store 以及 Region Leader 在上报信息时携带了当前访问负载的信息，比如 Key 的读取/写入速度。PD 会检测出访问热点，且将其在节点之间分散开。
各个 Store 的存储空间占用大致相等
控制调度速度，避免影响在线服务

3.5 自动伸缩

TiDB 借助 TiDB Operator 和 PD 来实现 Auto-Scale。目前由 TiDB Operator 组件定期获取 TiDB / TiKV 的 metrics 信息后，通过 API 的方式暴露出期望的 TiDB/TiKV numbers，然后由 TiDB Operator 定期拉取 PD API 信息后，通过内部的 Auto-scaling 算法对 TidbCluster.Spec.Replicas 进行调整，从而实现Auto-scaling。

3.6 动态调度

3.7 根据负载动态分裂 ( Load Base Splitting)

3.8 热点隔离 (Isolate Frequently Access Region）

四、TiDB 和 MySQL 的区别

TiDB 作为开源 NewSQL 数据库的典型代表之一，同样支持 SQL，支持事务 ACID 特性。
在通讯协议上，TiDB 选择与 MySQL 完全兼容，并尽可能兼容 MySQL 的语法。
因此，基于 MySQL 数据库开发的系统，大多数可以平滑迁移至 TiDB，而几乎不用修改代码。对用户来说，迁移成本极低，过渡自然。
但仍有少量不兼容。

[转帖]TiKV & TiDB相关笔记的更多相关文章

HTTPS证书申请相关笔记
申请免费的HTTPS证书相关资料参考资料: HTTPS 检测苹果ATS检测什么是ECC证书? 渠道2: Let's Encrypt 优点缺点 Let's Encrypt 的是否支持非80,44 ...
JNI相关笔记 [TOC]
JNI相关笔记目录 JNI相关笔记 1 生成native code所需要的头文件 2 JNI提供的一些函数和方法 3 局部引用,全局引用,全局弱引用. 4 异常 1 生成native code所需要 ...
关于SQL的相关笔记【长期更新，只发一帖】
场景[1]多表联查时,主表与关联表同时与同一张(第三张表)有关联,类似三角恋关系- - 涉及表: HOUSE:记录了房屋信息 ROOMS:记录了房间信息 HOUSE_STATUS:记录了状态信息的中文 ...
【转帖】Git学习笔记记录一下
本文内容参考了廖雪峰老师的博文,并做了适当整理,方便大家查阅. 原帖地址 https://wangfanggang.com/Git/git/ 常用命令仓库初始化 - git init 1 git i ...
Hadoop相关笔记
一. Zookeeper( 分布式协调服务框架 ) 1. Zookeeper概述和集群搭建: (1) Zookeeper概述: Zookeeper 是一个分布式 ...
redis相关笔记(二.集群配置及使用)
redis笔记一 redis笔记二 redis笔记三 1.配置:在原redis-sentinel文件夹中添加{8337,8338,8339,8340}文件夹,且复制原8333中的配置在上述8333配 ...
redis相关笔记(三.redis设计与实现(笔记))
redis笔记一 redis笔记二 redis笔记三 1.数据结构 1.1.简单动态字符串: 其属性有int len:长度,int free:空闲长度,char[] bur:字符数组(内容) 获取字符 ...
Windows API 进程相关笔记
0. 前言最近做了一个进程信息相关的项目,整理了一下自己做项目时的笔记,分享给大家 1. 相关概念 1.1 HANDLE 概念 HANDLE(句柄)是Windows操作系统中的一个概念. 在Wind ...
PHP相关笔记
扩展包(相关链接):https://packagist.org/: 插件postman主要应用于web开发时get.post请求时查看其响应:
lua相关笔记
--[[ xpcall( 调用函数, 错误捕获函数 ); lua提供了xpcall来捕获异常 xpcall接受两个参数:调用函数.错误处理函数. 当错误发生时,Lua会在栈释放以前调用错误处理函数,因 ...

随机推荐

2024-01-13：用go语言，现在有一个打怪类型的游戏，这个游戏是这样的，你有n个技能，每一个技能会有一个伤害，同时若怪物小于等于一定的血量，则该技能可能造成双倍伤害，每一个技能最多只能释放
2024-01-13:用go语言,现在有一个打怪类型的游戏,这个游戏是这样的,你有n个技能, 每一个技能会有一个伤害, 同时若怪物小于等于一定的血量,则该技能可能造成双倍伤害, 每一个技能最多只能释放 ...
Java 创建/编辑/删除Excel迷你图表
迷你图是Excel工作表单元格中表示数据的微型图表.使用迷你图可以非常直观的显示数据变化趋势,突出最大值.最小值,放在数据表格中可起到很好的数据分析效果.本文将通过Java代码示例介绍如何在Excel ...
VUE3/TS/TSX入门手册指北
VUE3入门手册 vue3入门首先查看官方文档:https://cn.vuejs.org/guide/quick-start.html 如果有vue2基础,速成课程:https://www.zh ...
在linux后台运行脚本的方法和命令
后台运行脚本执行脚本test.sh:./test.sh 中断脚本test.sh:ctrl+c 在1的基础上将运行中的test.sh,切换到后台并暂停:ctrl+z 执行ctrl+z后,test.sh ...
无法安装此app,因为无法验证其完整性，解决方案
最近有很多兄弟萌跟我反应"无法安装此app,因为无法验证其完整性 ",看来这个问题无法避免了,今天统一回复下,出现提示主要有以下几种可能 1.安装包不完整首先申请我所有分享的破解 ...
本地安装mysql （zip）
下载 https://downloads.mysql.com/archives/community/ 解压到文件夹且添加系统环境变量 C:\Dinstall\Dmysql\mysql-8.2.0-wi ...
鸿蒙HarmonyOS实战-工具安装和Helloworld案例
前言 HarmonyOS是华为自主开发的操作系统,它在2020年9月正式发布.它最初被称为鸿蒙OS,后来更名为HarmonyOS.HarmonyOS旨在提供一种可在各种设备上无缝运行的统一操作系统,包 ...
docker 容器关闭与springboot/springcloud client关闭
问题的提出: 在docker容器中运行springboot.springcloud client,如何进行优雅的关闭,防止eureka出现: EMERGENCY! EUREKA MAY BE INCO ...
POJ - 3087：Shuffle'm Up （字符串模拟）
一.内容题意:给定2个字符串s1,s2,将2个字符串进行重组成S,规则是S2最下面拿一个,S1最下面拿1个,直到所有块都用完. 二.思路用map记录下S串结果,若以前访问过这个串代表不可能有结果直 ...
JSP | IDEA 配置 JSP 模板
新建 jsp 文件时的模板在第 5 步输入下面模板代码: <%-- Created by IntelliJ IDEA. User: ${USER} Date: ${DATE} Time: ${ ...

[转帖]TiKV & TiDB相关笔记

一、TiKV存储

简述

Region

MVCC(多版本并发控制)

分布式 ACID 事务

二、TiDB如何使用TiKV

2.1 索引

2.1.1 行数据的key设计

2.1.2 索引数据的 Key-Value 映射关系

2.2 元数据

2.3 SQL 层简介

三、关于调度

3.1 为什么要进行调度

3.2 调度的需求整理

3.3 信息收集

3.4 调度的策略

3.5 自动伸缩

3.6 动态调度

3.7 根据负载动态分裂 ( Load Base Splitting)

3.8 热点隔离 (Isolate Frequently Access Region）

四、TiDB 和 MySQL 的区别

[转帖]TiKV & TiDB相关笔记的更多相关文章

随机推荐

热门专题