[文档]运维故障报告template
RCA的基本概念
根本原因分析技术(root cause analysis,RCA)。
IOWA州立大学质量管理学院认为,很多公司在设备发生故障后,都能够很快修复,
但难以发现故障的根本原因,所以此故障会再次发生。根本原因分析技术是一个发现和消除这些原因的过程,
只有当这个根本原因被发现和消除后,这个问题才能够被彻底解决。
下面是我在日常运维故障处理一个RCA模板。
for example:
问题根本原因分析(RCA)报告
|
客户信息: |
RCA 索引号: |
问题发生日期: |
问题解决日期: |
||||||||||||
|
xxx运营商 |
2021901 |
2019/03/27 |
2019/03/27 |
||||||||||||
|
RCA 负责人: 运维A |
|||||||||||||||
|
事件发生日期及时间: 2020/03/27 |
|||||||||||||||
|
事件恢复日期及时间: 2020/03/27 |
|||||||||||||||
|
相关问题/事件索引号: |
|||||||||||||||
|
事件恢复记录:
|
|||||||||||||||
|
问题描述: |
|||||||||||||||
|
运维人员日常巡检发现主机Control01 montior down掉,业务不受影响,montior高可用部署 |
|||||||||||||||
|
问题具体情况及影响面: |
|||||||||||||||
|
具体情况: 宿主机Control01, 根盘使用率接近满了,导致集群检测到空间不足,自动kill掉该该montior, 影响面: 对业务没有影响 |
|||||||||||||||
|
问题发现: |
|||||||||||||||
|
运维A人员巡检发现 |
|||||||||||||||
|
问题分析: |
|||||||||||||||
|
1、查看ceph集群的健康状态,发现问题 2、ceph health detail 找到了具体的故障montior节点,进去节点查看日志,发现日志提示 根盘超过Mon_data_avail_cri定义的值t导致montior down掉 |
|||||||||||||||
|
问题的类型: |
|||||||||||||||
|
存储集群异常 |
|||||||||||||||
|
问题的根本原因: |
|||||||||||||||
|
Control01 monitor节点根磁盘空间接近满了 |
|||||||||||||||
|
解决方案: |
|||||||||||||||
|
清理故障montior节点根盘无用数据 |
|||||||||||||||
|
预防措施: |
|||||||||||||||
|
1、定期巡检系统根盘空间 2、谨慎存放大文件到根盘 |
|||||||||||||||
[文档]运维故障报告template的更多相关文章
- nginx高性能WEB服务器系列之九--nginx运维故障日常解决方案
nginx系列友情链接:nginx高性能WEB服务器系列之一简介及安装https://www.cnblogs.com/maxtgood/p/9597596.htmlnginx高性能WEB服务器系列之二 ...
- 线上 S1 故障是什么, 线上 S1 故障, 运维故障分级, 运维, 故障分级, P1 级别故障, 故障, P1 , S1
线上 S1 故障是什么 线上 S1 故障, 运维故障分级, 运维, 故障分级, P1 级别故障, 故障, P1 , S1 故障复盘 https://time.geekbang.org/column/a ...
- Umbraco文档类型定义多个template
利用这个可以同时写PC端和手机端的网站, 在Template中,建立手机端的模板: 在文档类型中,同时选择两个模板,在浏览的时候在URL后加上Template的名称 + .aspx 就可以浏览到你写的 ...
- Linux系统运维故障排查
一.思路 1.处理问题要求 2.一般思路 二.具体问题 1.网络问题 (1)网络不通 (2)网络很慢 2.硬件问题 3.操作系统问题 (1)系统无法正常启动 (2)系统运行慢或死机 4.服务或程序问题 ...
- pytest文档7-pytest-html生成html报告
前言 pytest-HTML是一个插件,pytest用于生成测试结果的HTML报告.兼容Python 2.7,3.6 pytest-html 1.github上源码地址[https://github. ...
- pytest文档13-allure2生成html报告(史上最详细)
前言 allure是一个report框架,支持java的Junit/testng等框架,当然也可以支持python的pytest框架,也可以集成到Jenkins上展示高大上的报告界面. 环境准备 1. ...
- Linux运维故障排查思路
linux系统故障 网络问题 linux系统无响应 linux系统无法启动 linux系统故障处理思路 1.重视报错信息,一般情况下此提示基本定位了问题的所在 2.查阅日志文件,系统日志和应用日志 3 ...
- Linux 运维入门到跑路书单推荐
一.基础入门 <鸟哥的Linux私房菜基础学习篇>:最具知名度的Linux入门书<鸟哥的Linux私房菜基础学习篇>,全面而详细地介绍了Linux操作系统. https://b ...
- Go文档:go命令
目录 go go bug--启动bug报告 go build--编译包及其依赖包 go clean--删除对象文件和缓存文件 go doc--查看包或符号的文档 go env--打印环境变量 go f ...
随机推荐
- STC8H开发(五): SPI驱动nRF24L01无线模块
目录 STC8H开发(一): 在Keil5中配置和使用FwLib_STC8封装库(图文详解) STC8H开发(二): 在Linux VSCode中配置和使用FwLib_STC8封装库(图文详解) ST ...
- 【刷题-LeetCode】204. Count Primes
Count Primes Count the number of prime numbers less than a non-negative number, *n*. Example: Input: ...
- LINUX系统机器人
简介 在2016年,国内的软硬件尚不能有效支撑我们制造智能机器人,我们无法有效在Linux进行语音唤醒,只能使用斯坦福大学狮身人面像语音开源项目来进行英文识别我们对RIMA的呼唤,抗干扰性为0,意味着 ...
- 搭服务器之kvm--vnc连接虚拟机连接闪退直接消失 以及virsh shutdown命令无效解决办法。
之前暑期见识到了虚拟化在企业中的应用,感慨不小,以前只是自己在玩儿桌面vmware workstation,安装的虚拟机也没啥大感觉.在公司机房里大家用的dell poweredge 420,8gme ...
- elementui表格里面的索引,多选的复用解决
使用elementui表格时,当一个页面通过if判断有多个不同的表格时,其中一个或多个表格想要设置索引或者多选框时,会发现你在第一个里面设置了索引或者多选框,其他的表格都会出现,你在后面的其中一个设置 ...
- IoC容器-Bean管理XML方式(注入空值和特殊符号)
Ioc操作Bean管理(xml注入其他类型属性), 字面量 (1)null值 (2)属性值包含特殊符号
- Typora基础快捷键使用流程
Typora简介 Typora是一个所见即所得的Markdown格式文本编辑器,支持windows.macOS和GNU\Linux操作系统,包括对GitHub Flavored Markdown扩展格 ...
- python 小兵(12)模块1
序列化 我们今天学习下序列化,什么是序列化呢? 将原本的字典.列表等内容转换成一个字符串的过程就叫做序列化. 为什么要有序列化模块: 比如,我们在python代码中计算的一个数据需要给另外一段程序使用 ...
- Redis的最常被问到知识点总结 (转)
1.什么是redis? Redis 是一个基于内存的高性能key-value数据库. 2.Reids的特点 Redis本质上是一个Key-Value类型的内存数据库,很像memcached,整个数据库 ...
- sms短信网关对接
因为工作的需求,需要对接短信网关,业务上就是一个注册用户时,需要发送手机验证码;可能别的公司都是使用第三方接口,但是大点的公司,为了安全,他们都有自己的短信消息中心(SMSC) 1.业务需求 - 1. ...