[转帖]TiDB 统计数据库占用大小的N种方法
前言
TiDB 如何统计数据库占用空间大小
四种方法
方法一
TiDB 统计数据库占用大小的第一种方法是监控。通过查看 {cluster-name} - Overview
,可以查看Current storage size
面板,获取当前集群已用数据库空间大小。这里显示占用15GB。
使用监控查看数据库大小有一个好处,它可以观测到历史的数据增长趋势。
方法二
第二种方法是根据统计信息来计算大小。使用tables
表中的AVG_ROW_LENGTH
和TABLE_ROWS
来进行计算,这个方法的缺点是很依赖于数据库统计信息的准确性。
mysql> select TABLE_SCHEMA,sum(AVG_ROW_LENGTH * TABLE_ROWS)/1024/1024/1024 from information_schema.tables group by TABLE_SCHEMA;
+--------------------+-------------------------------------------------+
| TABLE_SCHEMA | sum(AVG_ROW_LENGTH * TABLE_ROWS)/1024/1024/1024 |
+--------------------+-------------------------------------------------+
| METRICS_SCHEMA | 0.000000000000 |
| sbtest | 8.280010784045 |
| PERFORMANCE_SCHEMA | 0.000000000000 |
| mysql | 0.000000000000 |
| test | 8.530541450717 |
| INFORMATION_SCHEMA | 0.000000000000 |
+--------------------+-------------------------------------------------+
6 rows in set (0.01 sec)
如果数据库的统计信息不准,则计算出来的大小就不准,很显然我这里计算是不准的。
方法三
第三种方法使用了tidb-ctl
工具,我们知道Tikv
会把region
信息上报给PD,因此可以使用该工具在 tidb 里面用 table 跟 region 的映射关系估算出 table 的大小。
我们来试一下,随便查询一张表。
tiup ctl:v5.1.3 tidb table disk-usage -d sbtest -t sbtest1
Starting component `ctl`: /root/.tiup/components/ctl/v5.1.3/ctl tidb table disk-usage -d sbtest -t sbtest1
2624
我写了一个shell脚本,遍历了 sbtest 这个schema。
tmp=`mysql -uroot -hxxx -P4000 -Ne "SELECT table_name FROM information_schema.tables where TABLE_SCHEMA='$1'"|while read a ;do echo "$a";done`
sum=0
for i in $tmp
do
tablename=`echo $i |cut -d: -f 1`
tablesize=`tiup ctl:v5.1.3 tidb table disk-usage -d $1 -t $tablename`
sum=$[sum+tablesize]
done
echo $sum
执行结果,显示的是12980,换算出来大概是12.7G。果然和我们从统计信息查出来的差异大。而统计test库显示出大概是1.4G。这样两个库统计出来的数据就是14.1G,接近图1的监控值。
方法四
第四种方法是查看TABLE_STORAGE_STATS
视图。
mysql> select TABLE_SIZE from TABLE_STORAGE_STATS where TABLE_NAME='sbtest1' and table_schema='sbtest';
+------------+
| TABLE_SIZE |
+------------+
| 2624 |
+------------+
1 row in set (0.00 sec)
mysql> select sum(TABLE_SIZE) from TABLE_STORAGE_STATS where table_schema='sbtest';
+-----------------+
| sum(TABLE_SIZE) |
+-----------------+
| 12980 |
+-----------------+
1 row in set (0.02 sec)
这个视图查出来的数据和tidb-ctl
查出来的结果一致。
一个小疑问
这里有个很有意思的地方,之前为了分析客户的高耗SQL问题,在test下面导入了客户的一张表和统计信息(没导入数据)。正好可以用来验证方法二和方法三和四的正确性。
这张pro_ssk
当时只导了表结构和统计信息,没导入任何数据。
mysql> select count(1) from pro_ssk;
+----------+
| count(1) |
+----------+
| 0 |
+----------+
1 row in set (0.01 sec)
mysql> select TABLE_SCHEMA,sum(AVG_ROW_LENGTH * TABLE_ROWS)/1024/1024/1024 from information_schema.tables where table_name='PRO_SSK' group by TABLE_SCHEMA;
+--------------+-------------------------------------------------+
| TABLE_SCHEMA | sum(AVG_ROW_LENGTH * TABLE_ROWS)/1024/1024/1024 |
+--------------+-------------------------------------------------+
| test | 5.842046596110 |
+--------------+-------------------------------------------------+
1 row in set (0.01 sec)
[root@copy-of-vm-ee-centos76-v1 ~]# tiup ctl:v5.1.3 tidb table disk-usage -d test -t PRO_SSK
Starting component `ctl`: /root/.tiup/components/ctl/v5.1.3/ctl tidb table disk-usage -d test -t PRO_SSK
134
mysql> select TABLE_SIZE from TABLE_STORAGE_STATS where TABLE_NAME='PRO_SSK' and table_schema='test';
+------------+
| TABLE_SIZE |
+------------+
| 134 |
+------------+
1 row in set (0.01 sec)
通过统计信息查询该表占用空间5.84GB。我们用tidb-ctl
和TABLE_STORAGE_STATS
视图查看都只有134MB。
疑问来了,为什么空表还占用了134MB ?
我们可以先查出表的region id
。
mysql> select distinct REGION_ID from TIKV_REGION_STATUS where DB_NAME='test' and TABLE_NAME='PRO_SSK';
+-----------+
| REGION_ID |
+-----------+
| 22001 |
+-----------+
1 row in set (0.01 sec)
然后使用 tikv-ctl
查看这个region的大小。
tiup ctl:v5.1.3 tikv --host 172.16.4.212:20160 size -r 22001
Starting component `ctl`: /root/.tiup/components/ctl/v5.1.3/ctl tikv --host 172.16.4.212:20160 size -r 22001
[2022/03/05 19:46:50.873 +08:00] [INFO] [<unknown>] ["Disabling AF_INET6 sockets because ::1 is not available."]
[2022/03/05 19:46:50.873 +08:00] [INFO] [<unknown>] ["TCP_USER_TIMEOUT is available. TCP_USER_TIMEOUT will be used thereafter"]
[2022/03/05 19:46:50.874 +08:00] [INFO] [<unknown>] ["New connected subchannel at 0x7ffae622e210 for subchannel 0x7ffae9210d80"]
region id: 22001
cf default region size: 0B
cf write region size: 134.060MiB
cf lock region size: 0B
KV 数据最终存储在默认 RocksDB 内部的 default、write、lock 3 个 CF 内。这里可以看到cf write
是134MB的。
根据官网介绍
write
CF 存储的是数据的版本信息 (MVCC) 以及索引相关的数据
但是我这个表真的是空表,也没有做过更新和删除的操作,所以不应该有MVCC和索引的数据。
mysql> select distinct TABLE_NAME from TIKV_REGION_STATUS where REGION_ID =22001;
+-----------------------+
| TABLE_NAME |
+-----------------------+
| sbtest1 |
| aaa |
| a1 |
| seq2 |
| sbtest99 |
| PRO_SSK |
| sbtest5 |
+-----------------------+
7 rows in set (0.01 sec)
再次查询region
的信息,发现这个region
并不是一张表在使用,它还有其他表也在用,所以这130MB有可能是其他数据表的MVCC或者索引信息。所以方法三和方法四这么来看也是不准的。但是相对统计信息来说,还是要准不少的。
后记
以上是TiDB
统计数据库大小的四种方法,看整体大小占用直接看监控就行。如果要看单张表,建议使用tidb-ctl
工具或者是查看TABLE_STORAGE_STATS
视图。
refenerce
https://asktug.com/t/topic/1318
[转帖]TiDB 统计数据库占用大小的N种方法的更多相关文章
- 分析redis key大小的几种方法
当redis被用作缓存时,有时我们希望了解key的大小分布,或者想知道哪些key占的空间比较大.本文提供了几种方法. 一. bigKeys 这是redis-cli自带的一个命令.对整个redis进行扫 ...
- Android中动态改变控件的大小的一种方法
在Android中有时候我们需要动态改变控件的大小.有几种办法可以实现 一是在onMeasure中修改尺寸,二是在onLayout中修改位置和尺寸.这个是可以进行位置修改的,onMeasure不行. ...
- 查找linux系统下的端口被占用进程的两种方法 【转】
在linux下开发时,你的软件可能要使用某一个端口,或者想查找某一个端口是否被占用.需要怎么做呢??这的确是一个比较烦恼的问题,我也此为这个苦恼过.但是通过查找man手册,还是同事的交流.总结出来两种 ...
- Linux/Centos查看进程占用内存大小的几种方法总结
1.命令行输入top回车,然后按下大写M按照memory排序,按下大写P按照CPU排序. 2. ps -ef | grep "进程名" ps -e -o 'pid,comm ...
- Java读取文件夹大小的6种方法及代码
(一)单线程递归方式 package com.taobao.test; import java.io.File; public class TotalFileSizeSequential { publ ...
- VC++实现获取文件占用空间大小的两种方法(非文件大小)
// GetFileSpaceSize.cpp : Defines the entry point for the console application. // /***************** ...
- PHP 获取远程文件的大小的3种方法
1.使用file_get_contents() <?php $file = file_get_contents($url); echo strlen($file); ?> 2. 使用get ...
- pc端字体大小自适应几种方法
$(window).resize(function ()// 绑定到窗口的这个事件中 { var whdef = 100/1920;// 表示1920的设计图,使用100PX的默认值 var wH ...
- emwin之求解窗口坐标及大小的一种方法
@2019-01-26 [小记] 使用函数 WM_GetWindowRectEx(hItem, &Rect),坐标就存储在对象 Rect 中,可用于一些默认创建的窗口
- 数组比较大小的几种方法及math是方法
call apply bind 的区别? 解决函数内this的指向: 1.可以在函数外提前声明变量 一般情况下我们用 var _this/that=this 2.通过apply和call来修改函数 ...
随机推荐
- Android 蓝牙使用
原文地址: Android 蓝牙使用 - Stars-One的杂货小窝 公司项目需求需要实现监听蓝牙耳机连接,且要获取蓝牙耳机电量功能,翻了不少官方文档,记录下技术调研代码 注:本文没有研究蓝牙配对功 ...
- Docker 部署工具
Docker 容器的创建比较简单,容器解决了应用程序对于运行环境的依赖问题,但是在当前所处的微服务盛行的情况下,手动管理容器是一件比较重复其及其枯燥的工作,这项工作理论上可以通过计算机来完成,因此涌现 ...
- 记一次uboot编译/经验/教训
记一次uboot编译/经验/教训 - 最近学习uboot移植有关的知识,在了解原理后自己编译uboot,但是出现了好多各式各样的错误,最后换了几次系统环境之后才找到错误来源 1.准备源码与交叉编译工具 ...
- 自签证书https
1.下载编译好的openssl. http://slproweb.com/products/Win32OpenSSL.html 下载完成后运行安装: 记住你安装到的目录,等下打开这个文件夹(小贴士:最 ...
- 超详细API插件使用教程,教你开发AI垃圾分类机器人
本文分享自华为云社区[案例教学]华为云API对话机器人的魅力-体验AI垃圾分类机器人,作者:华为云PaaS服务小智. 体验用Huawei Cloud API开发AI垃圾分类机器人,并学习AI自然语言的 ...
- 云原生2.0时代下,DevOps实践如何才能更加高效敏捷?
当前全球的数字化浪潮逐步加深,云计算成为当今信息化发展的重要基础设施,云原生(Cloud Native)在数字化浪潮中的角色逐步提升,成为近几年云计算领域炙手可热的话题. 首先我们来看看一张图,看看云 ...
- Open Serverless Benchmark Initiative: 华为云联合上海交大发布ServerlessBench 2.0
Key Takeaways 华为云联合上海交大,首次提出 Open Serverless Benchmark Initiative (OSBI) ,推动Serverless基准测评规范化.标准化: O ...
- Taro架构构析(1):多端框架分析,Taro WePY uni-app对比
多端框架分类 全包型 这类框架最大的特点就是从底层的渲染引擎.布局引擎,到中层的 DSL,再到上层的框架全部由自己开发,代表框架是 Qt 和 Flutter.这类框架优点非常明显:性能(的上限)高:各 ...
- Vue 应用程序性能优化:代码压缩、加密和混淆配置详解
简介在 Vue 应用程序的开发中,代码压缩.加密和混淆是优化应用程序性能和提高安全性的重要步骤. Vue CLI 是一个功能强大的开发工具,它提供了方便的配置选项来实现这些功能.本文将介绍如何使用 ...
- iOS移动应用安全加固:保护您的App免受恶意攻击的重要步骤
目录 iOS移动应用安全加固:保护您的App免受恶意攻击的重要步骤 摘要 引言 一.APP加固的概念 二.APP加固方案的比较 三.保护iOS应用的安全 四.总结 参考资料 摘要 本文介绍了移动应 ...