[转帖]TiDB Lightning 监控告警
https://docs.pingcap.com/zh/tidb/v6.5/monitor-tidb-lightning
tidb-lightning 支持使用 Prometheus 采集监控指标 (metrics)。本文主要介绍 TiDB Lightning 的监控配置与监控指标。
监控配置
如果是手动部署 TiDB Lightning,则参照以下步骤进行配置。
只要 Prometheus 能发现 tidb-lightning 和 tikv-importer 的监控地址,就能收集对应的监控指标。
监控的端口可在 tidb-lightning.toml 中配置:
监控的端口也可在 tikv-importer.toml 配置:
配置 Prometheus 后,tidb-lightning 才能发现服务器。配置方法如下,将服务器地址直接添加至 scrape_configs 部分:
Grafana 面板
Grafana 的可视化面板可以让你在网页上监控 Prometheus 指标。
第一行:速度面板

| 面板名称 | 序列 | 描述 |
|---|---|---|
| Import speed | write from lightning | 从 TiDB Lightning 向 TiKV Importer 发送键值对的速度,取决于每个表的复杂性 |
| Import speed | upload to tikv | 从 TiKV Importer 上传 SST 文件到所有 TiKV 副本的总体速度 |
| Chunk process duration | 完全编码单个数据文件所需的平均时间 |
有时导入速度会降到 0,这是为了平衡其他部分的速度,属于正常现象。
第二行:进度面板

| 面板名称 | 描述 |
|---|---|
| Import progress | 已编码的文件所占百分比 |
| Checksum progress | 已导入的表所占百分比 |
| Failures | 导入失败的表的数量以及故障点,通常为空 |
第三行:资源使用面板

| 面板名称 | 描述 |
|---|---|
| Memory usage | 每个服务占用的内存 |
| Number of Lightning Goroutines | TiDB Lightning 使用的运行中的 goroutines 数量 |
| CPU% | 每个服务使用的逻辑 CPU 数量 |
第四行:配额使用面板

| 面板名称 | 序列 | 描述 |
|---|---|---|
| Idle workers | io | 未使用的 io-concurrency 的数量,通常接近配置值(默认为 5),接近 0 时表示磁盘运行太慢 |
| Idle workers | closed-engine | 已关闭但未清理的引擎数量,通常接近 index-concurrency 与 table-concurrency 的和(默认为 8),接近 0 时表示 TiDB Lightning 比 TiKV Importer 快,导致 TiDB Lightning 延迟 |
| Idle workers | table | 未使用的 table-concurrency 的数量,通常为 0,直到进程结束 |
| Idle workers | index | 未使用的 index-concurrency 的数量,通常为 0,直到进程结束 |
| Idle workers | region | 未使用的 region-concurrency 的数量,通常为 0,直到进程结束 |
| External resources | KV Encoder | 已激活的 KV encoder 的数量,通常与 region-concurrency 的数量相同,直到进程结束 |
| External resources | Importer Engines | 打开的引擎文件数量,不应超过 max-open-engines 的设置 |
第五行:读取速度面板

| 面板名称 | 序列 | 描述 |
|---|---|---|
| Chunk parser read block duration | read block | 读取一个字节块来准备解析时所消耗的时间 |
| Chunk parser read block duration | apply worker | 等待 io-concurrency 空闲所消耗的时间 |
| SQL process duration | row encode | 解析和编码单行所消耗的时间 |
| SQL process duration | block deliver | 将一组键值对发送到 TiKV Importer 所消耗的时间 |
如果上述项的持续时间过长,则表示 TiDB Lightning 使用的磁盘运行太慢或 I/O 太忙。
第六行:存储空间面板

| 面板名称 | 序列 | 描述 |
|---|---|---|
| SQL process rate | data deliver rate | 向 TiKV Importer 发送数据键值对的速度 |
| SQL process rate | index deliver rate | 向 TiKV Importer 发送索引键值对的速度 |
| SQL process rate | total deliver rate | 发送数据键值对及索引键值对的速度之和 |
| Total bytes | parser read size | TiDB Lightning 正在读取的字节数 |
| Total bytes | data deliver size | 已发送到 TiKV Importer 的数据键值对的字节数 |
| Total bytes | index deliver size | 已发送到 TiKV Importer 的索引键值对的字节数 |
| Total bytes | storage_size/3 | TiKV 集群占用的存储空间大小的 1/3(3 为默认的副本数量) |
第七行:导入速度面板

| 面板名称 | 序列 | 描述 |
|---|---|---|
| Delivery duration | Range delivery | 将一个 range 的键值对上传到 TiKV 集群所消耗的时间 |
| Delivery duration | SST delivery | 将单个 SST 文件上传到 TiKV 集群所消耗的时间 |
| SST process duration | Split SST | 将键值对流切分成若干 SST 文件所消耗的时间 |
| SST process duration | SST upload | 上传单个 SST 文件所消耗的时间 |
| SST process duration | SST ingest | ingest 单个 SST 文件所消耗的时间 |
| SST process duration | SST size | 单个 SST 文件的大小 |
监控指标
本节将详细描述 tikv-importer 和 tidb-lightning 的监控指标。
tikv-importer
tikv-importer 的监控指标皆以 tikv_import_* 为前缀。
tikv_import_rpc_duration(直方图)完成一次 RPC 用时直方图。标签:
- request:所执行 RPC 请求的类型
switch_mode— 将一个 TiKV 节点切换为 import/normal 模式open_engine— 打开引擎文件write_engine— 接收数据并写入引擎文件close_engine— 关闭一个引擎文件import_engine— 导入一个引擎文件到 TiKV 集群中cleanup_engine— 删除一个引擎文件compact_cluster— 显式压缩 TiKV 集群upload— 上传一个 SST 文件ingest— Ingest 一个 SST 文件compact— 显式压缩一个 TiKV 节点
- result:RPC 请求的执行结果
okerror
- request:所执行 RPC 请求的类型
tikv_import_write_chunk_bytes(直方图)从 TiDB Lightning 接收的键值对区块大小(未压缩)的直方图。
tikv_import_write_chunk_duration(直方图)从
tidb-lightning接收每个键值对区块所需时间的直方图。tikv_import_upload_chunk_bytes(直方图)上传到 TiKV 的每个 SST 文件区块大小(压缩)的直方图。
tikv_import_range_delivery_duration(直方图)将一个 range 的键值对发送至
dispatch-job任务所需时间的直方图。tikv_import_split_sst_duration(直方图)将 range 从引擎文件中分离到单个 SST 文件中所需时间的直方图。
tikv_import_sst_delivery_duration(直方图)将 SST 文件从
dispatch-job任务发送到ImportSSTJob任务所需时间的直方图tikv_import_sst_recv_duration(直方图)ImportSSTJob任务接收从dispatch-job任务发送过来的 SST 文件所需时间的直方图。tikv_import_sst_upload_duration(直方图)从
ImportSSTJob任务上传 SST 文件到 TiKV 节点所需时间的直方图。tikv_import_sst_chunk_bytes(直方图)上传到 TiKV 节点的 SST 文件(压缩)大小的直方图。
tikv_import_sst_ingest_duration(直方图)将 SST 文件传入至 TiKV 所需时间的直方图。
tikv_import_each_phase(测量仪)表示运行阶段。值为 1 时表示在阶段内运行,值为 0 时表示在阶段内运行。标签:
- phase:
prepare/import
- phase:
tikv_import_wait_store_available_count(计数器)计算出现 TiKV 节点没有充足空间上传 SST 文件现象的次数。标签:
- store_id: TiKV 存储 ID。
tikv_import_upload_chunk_duration(直方图)上传到 TiKV 的每个区块所需时间的直方图。
tidb-lightning
tidb-lightning 的监控指标皆以 lightning_* 为前缀。
lightning_importer_engine(计数器)计算已开启及关闭的引擎文件数量。标签:
- type:
openclosed
- type:
lightning_idle_workers(计量表盘)计算闲置的 worker。标签:
- name:
table— 未使用的table-concurrency的数量,通常为 0,直到进程结束index— 未使用的index-concurrency的数量,通常为 0,直到进程结束region— 未使用的region-concurrency的数量,通常为 0,直到进程结束io— 未使用的io-concurrency的数量,通常接近配置值(默认为 5),接近 0 时表示磁盘运行太慢closed-engine— 已关闭但未清理的引擎数量,通常接近index-concurrency与table-concurrency的和(默认为 8),接近 0 时表示 TiDB Lightning 比 TiKV Importer 快,导致 TiDB Lightning 延迟
- name:
lightning_kv_encoder(计数器)计算已开启及关闭的 KV 编码器。KV 编码器是运行于内存的 TiDB 实例,用于将 SQL 的
INSERT语句转换成键值对。此度量的净值(开启减掉关闭)在正常情况下不应持续增长。标签:- type:
openclosed
- type:
lightning_tables(计数器)计算处理过的表及其状态。标签:
- state:表的状态,表明当前应执行的操作
pending— 等待处理written— 所有数据已编码和传输closed— 所有对应的引擎文件已关闭imported— 所有引擎文件已上传到目标集群altered_auto_inc— 自增 ID 已改checksum— 已计算校验和analyzed— 已进行统计信息分析completed— 表格已完全导入并通过验证
- result:当前操作的执行结果
success— 成功failure— 失败(未完成)
- state:表的状态,表明当前应执行的操作
lightning_engines(计数器)计算处理后引擎文件的数量以及其状态。标签:
- state:引擎文件的状态,表明当前应执行的操作
pending— 等待处理written— 所有数据已编码和传输closed— 引擎文件已关闭imported— 当前引擎文件已上传到目标集群completed— 当前引擎文件已完全导入
- result:当前操作的执行结果
success— 成功failure— 失败(未完成)
- state:引擎文件的状态,表明当前应执行的操作
lightning_chunks(计数器)计算处理过的 Chunks 及其状态。标签:
- state: 单个 Chunk 的状态,表明该 Chunk 当前所处的阶段
estimated— (非状态)当前任务中 Chunk 的数量pending— 已载入但未执行running— 正在编码和发送数据finished— 该 Chunk 已处理完毕failed— 处理过程中发生错误
- state: 单个 Chunk 的状态,表明该 Chunk 当前所处的阶段
lightning_import_seconds(直方图)导入每个表所需时间的直方图。
lightning_row_read_bytes(直方图)单行 SQL 数据大小的直方图。
lightning_row_encode_seconds(直方图)解码单行 SQL 数据到键值对所需时间的直方图。
lightning_row_kv_deliver_seconds(直方图)发送一组与单行 SQL 数据对应的键值对所需时间的直方图。
lightning_block_deliver_seconds(直方图)每个键值对中的区块传送到
tikv-importer所需时间的直方图。lightning_block_deliver_bytes(直方图)发送到 Importer 的键值对中区块(未压缩)的大小的直方图。
lightning_chunk_parser_read_block_seconds(直方图)数据文件解析每个 SQL 区块所需时间的直方图。
lightning_checksum_seconds(直方图)计算表中 Checksum 所需时间的直方图。
lightning_apply_worker_seconds(直方图)获取闲置 worker 等待时间的直方图 (参见
lightning_idle_workers计量表盘)。标签:- name:
tableindexregionioclosed-engine
- name:
[转帖]TiDB Lightning 监控告警的更多相关文章
- zookeeper监控告警
一.ZooKeeper简介 ZooKeeper作为分布式系统中重要的组件,目前在业界使用越来越广泛,ZooKeeper的使用场景非常多,以下是几种典型的应用场景: l 数据发布与订阅(配置中心) l ...
- linux服务器内存、根目录使用率、某进程的监控告警脚本
脚本内容如下 #!/bin/bash #磁盘超过百分之80发送邮件告警 DISK_USED=`df -T |sed -n "2p" |awk '{print ($4/$3)*100 ...
- Execute to Parse %: 29.76,数据库硬解析过高,监控告警提示数据库硬解析比例过低
客户反馈,Oracle重启库操作后,监控告警出现pin比例低于25% 根据Oracle体系结构的理解,重启库后,硬解析及buffer命中率肯定有一段时间低. 生成不同时段的AWR报告:不要生成rac ...
- 24 Zabbix系统配置日志监控告警--关键字触发
点击返回:自学Zabbix之路 点击返回:自学Zabbix4.0之路 点击返回:自学zabbix集锦 24 Zabbix系统配置日志监控告警--关键字触发 trapper是被监控主机主动发送数据给za ...
- zabbix监控告警Received empty response from Zabbix Agent Assuming that agent dropped connection
zabbix监控告警Received empty response from Zabbix Agent Assuming that agent dropped connection错误 查看zabbi ...
- (转)Linux磁盘空间监控告警 && Linux磁盘管理
Linux磁盘空间监控告警 http://blog.csdn.net/github_39069288/article/details/73478784-----------Linux磁盘管理 原文:h ...
- SQL Server Alwayson架构下 服务器 各虚拟IP漂移监控告警的功能实现 -2(虚拟IP视角)
1.需求描述 我们知道Windows Cluster 都是多节点的,当虚拟IP漂移的时候,一般都是从一个节点漂移到另外一个节点.如果可以及时捕捉到旧节点信息是什么.新节点信息是什么对我们提供高可用的数 ...
- 分布式监控告警平台Centreon快速使用
一. Centreon概述 Centreon是一款功能强大的分布式IT监控系统,它通过第三方组件可以实现对网络.操作系统和应用程序的监控:首先,它是开源的,我们可以免费使用它:其次,它的底层采用nag ...
- MaxCompute按量计费计算任务消费监控告警
MaxCompute 按量计费资源为弹性伸缩资源,对于计算任务,按任务需求提供所需资源,对资源使用无限制,同时MaxCompute按量计费的账单为天账单,即当天消费需要第二天才出账,因此,有必要对计算 ...
- 详解Linux运维工具:运维流程管理、运维发布变更、运维监控告警
概述 应用上线后,运维工作才刚开始,具体工作可能包括:升级版本上线工作.服务监控.应用状态统计.日常服务状态巡检.突发故障处理.服务日常变更调整.集群管理.服务性能评估优化.数据库管理优化.随着应用 ...
随机推荐
- Feign源码解析:初始化过程(三)
背景 前面两篇讲了下,在一个典型的引入了feign.loadbalancer.nacos等相关依赖的环境中,会有哪些bean需要创建. 其中第一篇讲了非自动配置的bean,第二篇是自动配置的bean. ...
- 基于 Docker 打造前端持续集成开发环境
基于 Docker 打造前端持续集成开发环境 写在前面: 这不是一篇有新意的文章,因为这篇文章半年前我就发布在其他平台上过,为什么在知乎上旧文新发? 除了想要把发布在其他地方的文章统一放到知乎上之外, ...
- hutool的常用方法
https://www.hutool.cn/docs/#/ 官方文档 Hutool 是一个 Java 开发工具包,提供了丰富实用的工具类,包括字符串处理.日期处理.文件操作.加密解密.网络请求等等.以 ...
- Unreal学习笔记1-打印输出
1. 概述 相比各种打断点调试的办法,还是更习惯使用打印输出来进行调试. 2. 详论 2.1. 代码 这里写了三个函数:分别是输出到屏幕,输出到警告日志,输出错误日志. Output.h: #prag ...
- 华为云API Explorer:自动化运维的得力助手
华为云API Explorer为开发者提供一站式API解决方案统一平台,集成华为云服务所有开放API,支持全量快速检索.可视化调试.帮助文档.代码示例等能力,帮助开发者快速学习API,使用API开发代 ...
- 中秋佳节,程序员教你AI三步成诗,秒变“李白”
摘要:举杯邀明月,用技术来附庸风雅. 中秋佳节来临之际,你是否开始思念远方的亲朋好友,想为他们送上祝福?又或是与家人团圆赏月之时,希望借一段风雅诗词抒情达意? 华为云的开发者们教你一招,来个技术风的A ...
- 手把手带你通过API创建一个loT边缘应用
摘要:使用API Arts&API Explorer调用IoT边缘服务接口创建应用,了解边缘计算在物联网行业的应用. 本文分享自华为云社区<使用API Arts&API Expl ...
- 云图说|AI开发难!难!难!端云协同多模态AI开发套件你需要了解一下
摘要:Huawei HiLens Kit是一款端云协同多模态AI开发套件,支持图像.视频.语音等多种数据分析与推理计算,可广泛用于智能监控.智能家庭.机器人.无人机.智慧工业.智慧门店等分析场景. 在 ...
- 网络性能总不好?网络调优专家AOE帮你来“看看”
摘要:为提升网络性能.降低人工调优成本,CANN推出了自动化网络调优工具AOE,通过子图调优.算子调优与梯度调优的功能,让网络可以在AI硬件上获得最佳性能. 本文分享自华为云社区<网络性能总不好 ...
- MindSpore实践:对篮球运动员目标的检测
摘要:本文讲述的是MindSpore对篮球运动员目标的检测应用,通过AI技术辅助对篮球赛场进行分析. 本文分享自华为云社区<MindSpore大V博文系列:AI对篮球运动员目标的检测>,原 ...