故障描述

今天线上zabbix出现几次数据中断的情况,经排查为DB服务器磁盘空间不足导致的。还好我们目前我们zabbix,falcon两套监控系统并存,哈哈。

故障排查过程没什么技术含量,简单的将故障处理过程记录一下~

1,开始收到DB磁盘空间不足的告警(falcon),DBA查看后表示剩余磁盘大,磁盘空间还有一百多G,没啥问题。

2,十几分钟刚好有业务线在查看监控数据,发现监控数据中断了,把问题报到我们这边。

3,开始着手排查:查看Zabbix Server进程都是OK存在的,端口监听也都没有问题;检查日志发下大量的query failed报错,报错信息如下:

48102:20170324:200108.112 [Z3005] query failed: [1030] Got error 28 from storage engine [insert into history (itemid,clock,ns,value) values (1288566,1490315706,484955330,0.000000),(1287666,1490315706,516539194,0.000000),(1116846,1490315706,517255643,0.230000),(1306326,1490315706,519850399,99.910019),(761887,1490315707,652732960,0.000000),(762427,1490315707,654663788,0.010000),(943207,1490315707,655098203,99.966644),(943567,1490315707,655193288,97.071841),(762367,1490315707,655228276,0.000000),(943147,1490315707,655652053,0.000000);
]

4,上述报错中的关键信息就是“query failed: [1030] Got error 28 from storage engine”,数据在插入DB的时候出问题,赶紧将问题报给DBA进行查看。发现连接数已经几乎没有了。

5,同时google了下,查到这个报错的原因:

Mysql error "28 from storage engine" - means "not enough disk space".

DBA查看之后,发现磁盘空间还有109GB。  

6,尽管空间还有很多,但是日志输出是不会骗人的,赶紧删除可以删除的binlog、历史数据等来腾地儿喽~

7,果然,zabbix server在DB这边的磁盘空间清理之后恢复了写入。

参考链接:

http://stackoverflow.com/questions/10631387/1030-got-error-28-from-storage-engine

https://www.zabbix.com/forum/showthread.php?t=4203

关于故障期间的数据丢失,我们可以通过将zabbix server的日志中插入失败的SQL进行解析,重新写入即可。

后记

此处的故障是解决了,但是我们不该仅仅停留在担当救火队员的角色,我们还应该更深入的分析问题原因,利用技术、非技术的手段来杜绝这样的问题再次发生:

  1. 故障时在磁盘空间占用超过95%之后才出现的问题,因此合理推断在某处有一个门限值的配置,而95%恰巧就是那个门限值,此处暂时将推断留在此处,后面验证之后,我会把排查结果更新在这里
  2. 应该有监控手段来cover类似此处DB写入的状态
  3. 日志监控应该尽快落实、推广,将这些zabbix server等平台的日志进行采集和告警

DB磁盘满导致Zabbix Server Crash一例的更多相关文章

  1. RDS数据库磁盘满导致实例锁定

    问题描述: 阿里云RDS空间不足,进行报警.收到报警后.对数据库中不重要的数据备份后执行delete删除操作.执行成功后发现数据删掉了.但是数据库的空间并没有释放.数据占用空间反而越来越大,最后RDS ...

  2. 技术分享 | MySQL中MGR中SECONDARY节点磁盘满,导致mysqld进程被OOM Killed

    欢迎来到 GreatSQL社区分享的MySQL技术文章,如有疑问或想学习的内容,可以在下方评论区留言,看到后会进行解答 在MGR测试中,人为制造磁盘满问题后,节点被oom killed 问题描述 在对 ...

  3. 在线程内关闭thread handle,导致server crash

    很多年以前了,那时tester发现一个server crash,通过测试pager功能很多次,可以把server搞崩溃. 一般来说,能再现的bug都不难改,不过这次因为要跑很多次test,才能再现cr ...

  4. Web服务器磁盘满故障

    问题: 硬盘显示被写满,但是用du -sh /*查看时占用硬盘空间之和还远小于硬盘大小,即找不到硬盘分区是怎么被写满的.今天下午接到同事紧急求助,说生产线服务器硬盘满了.该删的日志都删掉了.可空间还是 ...

  5. (转)Web服务器磁盘满故障深入解析

    Web服务器磁盘满故障深入解析 原文:http://blog.51cto.com/oldboy/612351 ############################################# ...

  6. 阿里云ECS(linux)磁盘满触发的mysql的表异常修复案例

    阿里云ECS(linux)磁盘满触发的mysql的表异常修复案例 阿里云技术支持:完颜镇江 问题现象: 磁盘空间满了,第一想到的就是删除无用的服务日志或者升级数据盘. 通常是使用du –sh去分析目录 ...

  7. Zabbix监控之迁移zabbix server

    abbix监控中有时会根据需要对zabbix服务器进行迁移,zabbix迁移是非常简单的,因为zabbix的前端所有的操作都存在zabbix数据库里.所以zabbix迁移只需对zabbix库中相应的表 ...

  8. zabbix server+agent+proxy搭建性能监控平台

    这是新找到了配置文件配置方法但未尝试 每个模块工作职责: Zabbix Server:负责接收agent发送的报告信息的核心组件,所有配置,统计数据及操作数据均由其组织进行: Database Sto ...

  9. Zabbix3.2下Template App Zabbix Server+Template OS Linux Item

    序号 Name Key 返回值 释义1 Agent ping agent.ping 1 就是ping一下2 Avaliable memory vm.memory.size[available] 563 ...

随机推荐

  1. Design2:使用HierarchyID构建数据的分层结构

    1,传统的分层结构是父子结构,表结构中有一个ParentID字段自引用表的主键,表示“归属”关系,例如 create table dbo.emph ( ID int not null primary ...

  2. 工作总结 vue 城会玩

    用了vue2.0,vuex, vue-router等较新的技术,完成了城会玩这个项目,过程中发现自己许多不足,也得到很多人帮助,特别是有些困难的技术点.现在项目上线了,在此做一个整理和总结. 1.ke ...

  3. 自适应浏览器分辨率的javascript函数[转]

    function changeWidth(now,target) { //now是现在代码所适应的宽度,如800:target是想要达到的显示器分辨率宽度var widthStr; var flag ...

  4. 【免费培训】腾讯WeTest&TesterHome WorkShop | 一起学压测

    2019年,中国移动软件市场仍呈现快速增长趋势,移动新生态孕育而生.而移动软件质量问题越发受到用户的关注,成为用户体验的关键因素.目前移动软件测试人才稀缺,而性能测试作为一项高门槛.高技术的测试能力, ...

  5. 17-使用公共 Registry

    Docker Hub 是 Docker 公司维护的公共 Registry.用户可以将自己的镜像保存到 Docker Hub 免费的 repository 中.如果不希望别人访问自己的镜像,也可以购买私 ...

  6. EasyUI系列学习笔记(一)——注册

    前面介绍过EasyUI是一个前段框架,开发之前需要导入底层包:我这里采用的是EasyUI 1.4版本~ 今天主要是搭建一个EasyUI的环境,同时做一个登陆页面... 环境搭建 导入需要的文件到项目中 ...

  7. Jenkins远程测试

    Jenkins远程测试 网络测试,如,selenium 测试可以通过主从和 selenium 套件插件远程安装在机器上运行.下列步骤显示了如何运行使用此配置来进行远程测试. 第1步 - 确保主从配置到 ...

  8. Datawhale MySQL 训练营 Task5

    数据导入导出 导入table http://www.runoob.com/mysql/mysql-database-import.html 导出table http://www.runoob.com/ ...

  9. 3星|《实战复盘第四季·商业巨头们的变革之道》:GE、TCL、力拓集团、英美资源集团等企业总裁的变更经验

    实战复盘第四季·商业巨头们的变革之道(<哈佛商业评论>增刊) 本期是<哈佛商业评论>“实战复盘”栏目的10篇文章,讲的是GE.TCL.力拓集团.英美资源集团等企业如何熬过变革期 ...

  10. Netty源码分析第5章(ByteBuf)---->第5节: directArena分配缓冲区概述

    Netty源码分析第五章: ByteBuf 第五节: directArena分配缓冲区概述 上一小节简单分析了PooledByteBufAllocator中, 线程局部缓存和arean的相关逻辑, 这 ...