Tidb单副本时-TiKV节点损坏后有损数据恢复的方法

背景

UAT环境下,为了减少存储. 搭建了一套单副本的TiDB集群

但是随着数据量的增多, UAT上面的数据可以丢失,但是表结构等信息是无法接受丢失和损坏的. 

因为很多不太均衡的问题, 导致. 部分TiKV节点不稳定. 甚至会出现TiKV宕机的问题.

单副本时出现异常肯定会有部分数据丢失.  但是至少希望能够将环境挽救回来. 

所以重要的事情说三遍

至少三副本, 至少三副本, 至少三副本

必须有备份

必须有备份

必须有备份

环境说明

1. 环境信息

四台服务器

6个TiDB

16个TiKV

4个TiFlash

需要注意:

一共 8块SSD用于存储TiKV

这里存在一个问题. TiDB其实是默认每个tikv 独占一个SSD的.

所以数据存储的capacity 是翻倍的. 

2. 问题复盘

同事发现某一个TiKV总是出现disconnect的状态

然后执行了sacle-in的操作.

因为是单副本, 所以运行一段时间后发现机器都在报

9005 regions is unavailable的操作.

所以终止了scale-in

节点直接到了 down的状态.

然后再scale-in 节点存在数据的 表 都会报9005的错误

环境基本不可用.

修复思路

学习思路:

https://tidb.net/blog/ad45bad9

区别是, 我们是单副本, 某个tikv节点出现异常会丢失该节点上所有的regions.

思路主要是两个:

1. 删除所有regions的映射关系. 但是删除可能会导致更不可控的问题.

2. 将损坏tikv节点上面的regions 在其他节点创建一个空的regions. 诱导tidb查询过去.

   不会出现 9005的错误, 返回空, 虽然丢失数据, 但是会查询返回. 

思路1 不太可取. 删除操作可能带来更多的不可控

所以主要思路就在方案2 上面了.

环境准备

注意, 我这边的版本是 6.5.3

很多方式跟之前的操作步骤是不太相同的

为了快捷处理, 第一步是在tidb环境上面进行相关工具的创建与环境变量维护使用.

第一步: 安装

tiup ctl:v6.5.3

默认情况下会在

 /root/.tiup/components/ctl/v6.5.3/ctl

目录下面创建一些ctl的工具. 

修改环境变量

cat > /etc/profile.d/tidb.sh <<EOF

PATH=\$PATH:/root/.tiup/components/ctl/v6.5.3/

EOF

source /etc/profile.d/tidb.sh 

工具验证

pd-ctl config show 

停止调度:

pd-ctl config set region-schedule-limit 0

pd-ctl config set replica-schedule-limit 0

pd-ctl config set leader-schedule-limit 0

pd-ctl config set merge-schedule-limit 0

scale-out 一个tikv节点

yaml文件为:

tikv_servers:

  - host: 192.168.xxx.xxx

    port: 50160

    status_port: 50180

    data_dir: /nvme03/tidb/data/tikv-50160

tiup cluster scale-out erptidb xxx.yaml 

查看tidb的信息

tiup cluster display erptidb 

停止新增加的节点

tiup cluster stop erptidb -N 192.168.xxx.xxx:50160

处理过程

1. 查询宕机的tikv节点上面的 所有的regions.

   查询所有的tikv对应的storeid

   select * from information_schema.TIKV_STORE_STATUS

   获取异常的store 的id.

2. 根据storeid 获取所有的regions id

   	select * from TIKV_REGION_PEERS where store_id = '258384'

   注意,需要保存所有的 regions_id 我这次宕机有 25000 个regions. 

3. 在tidb的主机上面创建空的regions .

   tikv-ctl --data-dir /nvme03/tidb/data/tikv-50160 recreate-region -p 192.168.xxx.xxx:2379 -r 321115128

   注意 -r 后面是 异常损坏的 regions-id 

4. 注意时间可能会非常漫长, 创建完成后 可以删除掉之前有问题的store-id

   然后开起来关闭的那个stop节点:

   tiup cluster start erptidb -N 192.168.xxx.xxx:50160

   pd-ctl store delete 258384

5. 验证集群是否可用, 之前保存的表是否可以正常 select 或者是执行delete 操作. 

6. 恢复调度

pd-ctl config set region-schedule-limit  2048

pd-ctl config set replica-schedule-limit 1024

pd-ctl config set leader-schedule-limit  64

pd-ctl config set merge-schedule-limit   64

存在问题

怀疑是 6.5.3的bug 我有一个节点的容量特别高, 我也开启了 调度, 但是他死活调度不出来. 

也可能是开源版本的一些限制, 搞不太明白. 

使用minio 进行备份操作

now=`date +%Y%m%d%H`

export AWS_ACCESS_KEY_ID=miniouserpassword

export AWS_SECRET_ACCESS_KEY=miniouserpassword

mkdir /nvme02/minio/tidb255119${now}

time /root/.tiup/components/br/v7.2.0/br backup full  -f '*.*'  -f '!information_schema.*'   -f '!emetrics_schema.*'    --pd "192.168.xxx.xxx:2379" --storage "s3://tidb255119${now}" --s3.endpoint "http://192.168.xxx.xxy:9901"  --send-credentials-to-tikv=true  --log-file backupfull.log

idb单副本时-TiKV节点损坏后有损数据恢复的方法的更多相关文章

thinkserer TD350 系统损坏后，数据恢复及系统重做过程
电脑配置: 联想服务器 TD350 E5-2609V4 2*8G 2*4T+R1 塔式单电 1.系统恢复: 试过很多种方法,均无效 2.数据恢复: 重新安装系统后,直接在D盘查找 , 原C盘的 ...
使用WdatePicker日期组件时，选择日期后，执行某个方法
WdatePicker({onpicked:function(){alert(123);},dateFmt:'yyyy年MM月dd日',maxDate:'%y-%M-%d'}) 1.onpicked: ...
php表单提交时获取不到post数据的解决方法
找到了一位博主的方法完美解决,链接如下: http://blog.csdn.net/whd526/article/details/53263181
tidb损坏tikv节点怎么恢复集群
tikv节点宕机(机器再起不来),或者数据节点被rm -rf 掉了怎么办正常情况下tikv节点down掉了.此时不要去执行store delete store_id .数据一般可以正常访问,但是如 ...
flask用宏渲染表单模板时，表单提交后，如果form.validate_on_submit()返回的是false的可能原因
flask用宏渲染表单模板时,表单提交后,提交的内容符合DataRequired()校验, 但是form.validate_on_submit()返回的是False, 原因可能是表单模板中的<f ...
C#TreeView节点选中后失去焦点时改变节点背景色
C#TreeView节点选中后失去焦点时改变节点背景色在使用TreeView控件时候,单击一个节点,当鼠标聚焦到别的地方的时候,之前点击的这个节点就看不清楚了举例截图单击后 ...
es故障节点恢复后加入集群导致删除索引重新出现
es的每个shard下的文件都可以看做一个完整的lucene文件,shard数据目录下的segment文件包含了索引的分片数量,副本数量.es shard可以恢复,就是因为每个shard都包含了一份数 ...
rac 11g_第二个节点重启后无法启动实例：磁盘组dismount问题
原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明以下出处,否则追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlo ...
Consul的一个更新：服务端节点故障后重连
研究了一段时间Consul,想写个攻略来着,但太赖了而且表达能力非正常人...今天发现HashiCorp果然接纳大众意见改了点东西.. 场景是: 假如Consul集群内有三个Server Node 时 ...
RAID 损坏后如何对物理硬盘做完整镜像
"磁盘阵列是由很多价格较便宜的磁盘,组合成一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能.利用这项技术,将数据切割成许多区段,分别存放在各个硬盘上." ...

随机推荐

select/poll/epoll 优缺点比较
校招应届生简历中,有一个 C++ 项目出现的频率非常高... select 1024 fd 限制(可修改,麻烦) 需要遍历才知道哪些 fd ready 副作用:修改传入 fd_set,每次需要重新赋值 ...
Mybatis源码3 CachingExecutor，二级缓存，缓存的实现
Mybatis CachingExecutor, 二级缓存,缓存的实现一丶二级缓存概述上一章节,我们知道mybaits在构造SqlSession的时候,需要让SqlSession持有一个执行器,如 ...
文心一言 VS 讯飞星火 VS chatgpt （36）-- 算法导论5.3 6题
六.请解释如何实现算法 PERMUTE-BY-SORTING,以处理两个或更多优先级相同的情形.也就是说,即使有两个或更多优先级相同,你的算法也应该产生一个均匀随机排列. 文心一言: 算法 PERMU ...
JavaScript异步编程1——Promise的初步使用
目录 1. 概述 2. 详论 3. 参考 1. 概述 Promise对象是ES6提出的的异步编程的规范.说到异步编程,就不得不说说同步和异步这两个概念. 从字面意思理解同步编程的话,似乎指的是两个任务 ...
C++篇：第三章_控制结构_知识点大全
C++篇为本人学C++时所做笔记(特别是疑难杂点),全是硬货,虽然看着枯燥但会让你收益颇丰,可用作学习C++的一大利器三.控制结构 for循环的结束判定条件是boolean型只要适当地修改代码,就 ...
伯克利：serverless是下一代计算范式
摘要:Serverless技术正是云厂商的基于规模经济的一个选择. 引子刚过去的HC2020,华为面向多样化算力的时代,发布了DC分布式计算的三个开发套件,其中一个是元戎组件.元戎是基于函数计算的分 ...
华为云登顶HotpotQA多跳知识推理问答评测
日前,华为云在知识计算领域的多跳知识推理问答取得重大进展.基于自然语言处理领域的领先技术积累,华为云语音语义创新Lab联合华为诺亚方舟实验室在国际权威的HotpotQA评测Fullwiki Setti ...
在线就能用的 SQL 练习平台（附SQL学习文档）
对大数据和数据分析感兴趣的同学,如何入门一直是一个大问题. 而对于找工作的同学,笔试和面试环节也一直是一个让人头疼的问题. 其实企业也很头疼,不进行笔试,怕被面试者忽悠.进行笔试可能又把某些大牛筛出去 ...
iOS上架审核宝典：如何避免被拒一次提交成功
Xcode 摘要:本文整理了iOS上架需要注意的事项,以帮助从事iOS开发和App运营的朋友们避免审核被拒的困扰.通过遵循这些指南,我们可以在一次提交中成功地将应用上架,并节省宝贵的时间和精力. 引言 ...
python 正则表达式简单使用
定义: 正则表达式,又称规则表达式,通常被用来检索.替换那些符合某个模式(规则)的文本. 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个&quo ...

idb单副本时-TiKV节点损坏后有损数据恢复的方法

Tidb单副本时-TiKV节点损坏后有损数据恢复的方法

背景

环境说明

修复思路

环境准备

处理过程

存在问题

idb单副本时-TiKV节点损坏后有损数据恢复的方法的更多相关文章

随机推荐

热门专题