https://tidb.net/blog/07c99ed0#4%C2%A0%20%E4%B8%80%E4%BA%9B%E5%BB%BA%E8%AE%AE

1 region访问基本流程

tidb在访问key数据时需要获取key所在region的分布信息,在tidb 侧有一个region cache存储region信息,包含region key范围、leader+peer信息、store_id等,每次访问key时先从region cache内查找是否有相应region信息如果没有则从pd读取并放到region cache内。

由于pd或tikv不会主动将最新的region信息告知给tidb,当region发生变化时,比如leader切换、region分裂或合并,或者tikv节点无法访问等,tidb侧的region cache信息可能会过期,此时根据region cache信息访问tikv时由于region的变化tikv会返回一些错误信息,比如not leader、RegionNotFound 、EpochNotMatch 等。tidb会进行backoff,根据tikv返回的错误信息里的内容或从pd更新region信息,尝试使用新的信息访问region。

2 region is unavailable常见原因

region is unavailable 就是tidb 在backoff时由于各种问题导致超过了阈值时间(20秒)而返回的错误。常见的原因有:

1、最大副本数的半数以上tikv或tiflash不可用或同时发生重启,导致raftgroup多副本失败。需要注意的tidb集群允许问题tikv的数量是以副本数的多数可用为准,与运行tikv的主机数量没关系。

2、在backoff时间内没有leader可访问:

(1) Tikv很忙Region 在backoff时间内没有选举出leader;

(2) region已经有问题无法选出leader;

(3) Region split时间过长。

3、 Region split/merge在Follower apply慢的情况下,发生Leader切换后未能在backoff时间内同步到split/merge操作。

4、其他情况:比如版本升级过程不完全、bug等。如:https://docs.pingcap.com/zh/tidb/stable/release-5.3.3

3 排查总结

1、确认问题是偶尔出现还是每次必现。

2、检查是否有多个tikv 或tiflash异常的情况。

tiup cluster display  xxx 或查询Information_schema.tikv_store_status

3、检查tikv/tiflash的版本是否一致,状态是否与tiup一致,已缩容节点是否仍可见。

查询Information_schema.tikv_store_status 或 pd-ctl store

4、检查副本数设置max-replicas是否>=3。

pd-ctl config show

5、检查查询的表或使用的索引region是否正常。

explain SQL 检查报错表的执行计划使用索引还是表、走的tikv还是tiflash。

show table xxx regions .

pd-ctl region region_id

正常情况region中peer数应该>=max-replica数量,且其中一个为leader

6、直接查找不正常的region。

(1) 没有leader的region

pd-ctl region --jq='.regions[]|select(has("leader")|not)|{id: .id,peer_stores: [.peers[].store_id]}'

(2) region数小于一定数量的region

pd-ctl region --jq='.regions[] | {id: .id, peer_stores: [.peers[].store_id] | select(length==1) } '

(3) 检查bad region

./tikv-ctl --data-dir /data1/tidb-data/tikv-20160 bad-regions

5.x版本:./tikv-ctl --db /data1/tidb-data/tikv-20160/db bad-regions

7、检查tikv是否出现重启。

监控: TiKV detail -> cluster -> uptime或看memory趋势

8、检查follower apply是否延迟。

监控:TiKV detail -> raft Io -> appply log duration 是否过大

TiKV detail -> raft propose -> appply wait duration 是否过大

9、检查tikv是否出现server busy 或其他错误

监控:TiKV detail -> Erros

Server busy 排查

10、检查问题region的tikv/pd日志,确认是否有异常信息。

4 一些建议

1、在同一主机部署同一集群的多个tikv实例时一定要将所有tikv设置相同的label,否则会导致同一主机有某些region的多个副本存在,宕机后会出现多副本失败。

2、升级、缩容操作要处理完整。缩容处理流程可参考:

TiKV缩容下线异常处理的三板斧:https://tidb.net/blog/ddef26a5

----------------------------------------------------------------------------------------------------------------------

参考文档:Region is unavailable

[转帖]Region is unavailable的排查总结的更多相关文章

  1. tidb损坏tikv节点怎么恢复集群

    tikv节点宕机(机器再起不来),或者数据节点被rm -rf 掉了怎么办 正常情况下tikv节点down掉了.此时不要去执行store delete  store_id .数据一般可以正常访问,但是如 ...

  2. 线上问题排查-HBase写数据出现NotServingRegionException(Region ... is not online)异常

    今天线上遇到一个问题:有一台服务器的cpu持续冲高,排查发现是我们的一个java应用进程造成的,该进程在向hbase中写入数据时,日志不断地打印下面的异常: org.apache.hadoop.hba ...

  3. IIS进程池异常崩溃,导致网站 service unavailable,原因排查与记录。

    昨晚十点钟的样子,网站崩溃,开始 service unavailable,最近开始业务高峰,心里一惊,麻痹肯定进程池又异常崩溃了.又碰到什么问题?上次是因为一个异步线程的问题,导致了进程池直接崩溃,后 ...

  4. 【转帖】HBase之五:hbase的region分区

    HBase之五:hbase的region分区 https://www.cnblogs.com/duanxz/p/3154487.html 一.Region 概念 Region是表获取和分布的基本元素, ...

  5. 关于报错:'sharedApplication' is unavailable: not available on iOS (App Extension) - Use view controller based

    最近在看Extension相关知识的时候,自己写了个小demo 发现[UIApplication sharedApplication]这个方法敲不出来了, 总是报错:'sharedApplicatio ...

  6. su: cannot set user id: Resource temporarily unavailable

    今天R&D所在主机出现su: cannot set user id: Resource temporarily unavailable资源不可用报错,直接通过其他机器ssh huyuh@xxx ...

  7. 13_FCITX输入法安装及问题排查解决

    使用linux最沮丧的事情莫过于中文输入法切换不出来,甚至有人错误地认为,要使用中文输入法,必须把“区域和语言”(Region & Language)设置为中国-中文.输入法只是一个软件,和区 ...

  8. 排查 docker flow proxy 的 503 问题

    这是今天我们在开发环境下 docker swarm 集群上遇到的问题,在这篇博文中记录一下排查过程. 先登录到应用容器内检查一下其中运行的站点是否能正常访问: # docker exec -it 02 ...

  9. su: cannot set user id: Resource temporarily unavailable【转】

    今天R&D所在主机出现su: cannot set user id: Resource temporarily unavailable资源不可用报错,直接通过其他机器ssh huyuh@xxx ...

  10. [转帖] sqlserver CAL 授权模式下 只能够有20个core的使用问题

    http://www.cnblogs.com/diabloxl/p/3623640.html?utm_source=tuicool&utm_medium=referral 公司这边性能组老师进 ...

随机推荐

  1. Log4j2 漏洞复现GetShell

    目录: 一.搭建环境 1. 首先拉一个docker镜像 2. 然后启动环境 二.获取shell 首先,试验一下DNSLog 1. 准备JNDI注入工具 下载 进入目录打包成jar包 2. 利用 生成p ...

  2. 原来AI也可以如此简单!教你从0到1开发开源知识问答机器人

    摘要:使用华为云EI智能机器人技术,从0到1开发一款开源知识问答机器人. 前言 最近有幸参与了开源社开源问答机器人的知识库编写,碰巧看到华为云也有类似的智能机器人,抱着试一试的心态,我开始了EI智能机 ...

  3. Rust太难?那是你没看到这套Rust语言学习万字指南!

    摘要:从开发环境.语法.属性.内存管理和Unicode等五部分,为你带来一份详细的Rust语言学习的精华总结内容. 一.Rust开发环境指南 1.1 Rust代码执行 根据编译原理知识,编译器不是直接 ...

  4. 解读顶会ICDE’21论文:利用DAEMON算法解决多维时序异常检测问题

    摘要:该论文针对多维时序数据的异常检测问题,提出了基于GAN和AutoEncoder的深度神经网络算法,并取得了当前State of the Art (SOTA)的检测效果.论文是云数据库创新LAB在 ...

  5. 一文读懂 DevSecOps:工作原理、优势和实现

    由于 DevOps 方法的广泛采用以及由此产生的快速产品交付和部署,许多部门已采用更敏捷的方法来开发生命周期.在满足市场速度和规模要求的同时,设计安全的软件一直是现代 IT 公司共同面临的问题.结果, ...

  6. Solon Web 开发:三、一个简单的 Web 模板项目(或示例)

    演示 web 程序的常用能力: 控制器.请求参数.参数校验.跳转 过滤器.全局异常处理 静态文件 动态模板 动态模板公共变量及控制器基类 日志 Json 渲染格式控制 模板下载: 打包成 jar ,可 ...

  7. 3-3 vector 和 迭代器

    1 vector 容器vector可以理解为变长数组,它里面放的是相同类型的元素. vector<int> vec={1,2,3,4};//拷贝构造 vector<string> ...

  8. CNCF大使预测:2024年云原生面临倦怠、离职及云成本精简

    本文由 CNCF 大使 Eric D. Schabell 撰写,预测2024年云原生领域最可能发生的3大变化,并与其对云原生可观测性领域的见解结合. 关注云原生倦怠 毫无疑问,在 2023 年中云原生 ...

  9. 转载--阿里云ECS自建K8S集群

    一.概述(官方建议) 集群规划 目前在创建Kubernetes集群时,存在着使用很多小规格ECS的现象,这样做有以下弊端: 小规格Woker ECS的网络资源受限. 如果一个容器基本可以占用一个小规格 ...

  10. 【CJsonObject】C++ JSON 解析器使用教程

    能选封装的尽量不使用底层的 一.CJsonObject 简介 CJsonObject 是 Bwar 基于 cJSON 全新开发一个 C++ 版的 JSON 库. CJsonObject 的最大优势是轻 ...