【Zabbix】大规模监控误报发生时的处理方案
今天遇到了这样一件事。。Zabbix一直在用的数据库突然间崩溃,无法连接了。在down掉的那一时刻开始,zabbix向管理员报了警。然后随之而来的是铺天盖地的所有主机zabbix agent无法连接的告警。一时间引起大恐慌。。在events界面中看到的是很多闪红的trigger以及actions字段In progress(3 retries left)之类的信息。
在得到这个情况之后,我第一反应是打开了维护期。。后来想想确实是傻,因为事件已经触发,告警脚本的运行已经被排入执行队列中了。因此大量告警依然源源不断发出。打开维护期不行之后又想直接到数据库里删数据,可是不知道删什么表的数据合适,况且不能一不小心删过头把不该删的数据给删了。于是就放弃。
接下来收到反馈,建议我赶紧disable相关的action。这么做了,然而也在差不多的时候,所有未发出的警报也都悉数发出了。。至此,挽救误报行动失败ORZ
然后到测试环境上继续试验。首先小总结一下问题,就是探索当action处于In progress状态的时候怎么样操作才能让其发送失败。
继续刚才的方案,就是在In Progress的时候disable掉action。经过测试发现并没有用。当处于Progress状态的时候action就已经被触发,此时再disable为时已晚。
然后尝试了更加暴力一点的方案,修改告警脚本文件故意让它出错,或者直接改脚本名。这次奏效了。说明In Progress状态的action还没有加载告警脚本的代码,此时如果让代码出错或者改变脚本路径让程序找不到脚本都可以阻止告警的进一步发出。
但是多试验了几次之后发现也并不是完全一定这样。有时候,可能会发生还是成功发出报警的情况,有时也会发生页面上显示了绿色的发出报警但是实际上没发出,有时候时显示没发出也确实没发出。总之这个我估计就是看zabbix调用告警脚本和我们改告警脚本哪个手快的缘故。另外告警肯定是并发进行的,但并发不是无限量的,总的来说可能做不到拦下每一个误报,但是可以让大多数误报都不被发送出去。
【Zabbix】大规模监控误报发生时的处理方案的更多相关文章
- 一次误报引发的DNS检测方案的思考:DNS隧道检测平民解决方案
摘自:http://www.freebuf.com/articles/network/149328.html 通过以上分析得出监控需要关注的几个要素:长域名.频率.txt类型.终端是否对解析ip发起访 ...
- zabbix中监控项报错
报错信息: zabbix报错(Not all processes could be identified, non-owned process info will not be shown, you ...
- zabbix误报交换机重启
交换机的sysUpTime是由一个32-bit的counter来计数的,单位是0.01秒,所以最大时间为496天,过了496天就溢出,变成0,然后又重新计算时间,所以zabbix误报. snmpwal ...
- zabbix server监控报主机 Lack of free swap space
zabbix server监控报主机 Lack of free swap space,因为交换空间不足引起.该主机内存为3G,正常交换空间大小为物理内存2倍左右. #查看已有内存及交换空间 free ...
- zabbix 监控项报"Value "(No info could be read for "-p": geteuid()=1002 but you should be root"
zabbix 监控项报错如下: “Value "(No info could be read for "-p": geteuid()=1002 but you shoul ...
- Prometheus 监控 Kubernetes Job 资源误报的坑
转载自:https://www.qikqiak.com/post/prometheus-monitor-k8s-job-trap/ 昨天在 Prometheus 课程辅导群里面有同学提到一个问题,是关 ...
- zabbix企业监控
第一节.系统初始化 1.前期环境 主机名 IP地址 操作系统 备注 zabbix-10 192.168.2.10 CentOS Linux release 7.4 zabbix服务端 agent-15 ...
- 基于Zabbix IPMI监控服务器硬件状况
基于Zabbix IPMI监控服务器硬件状况 zabbix ipmi 公司有多个分部,且机房没有专业值班,机房等级不够.在这种情况下,又想实时监控机房环境,于是使用IPMI方式来达到目的.由于之前已经 ...
- zabbix如何监控WEB应用性能
HTTP服务目前最流行的互联网应用之一,如何监控服务的健康状态对系统运维来说至关重要. Zabbix本身提供了对WEB应用程序的监控,比如监控WEB程序的Download Speed,Respon ...
随机推荐
- 1.3 PCI总线的存储器读写总线事务
总线的基本任务是实现数据传送,将一组数据从一个设备传送到另一个设备,当然总线也可以将一个设备的数据广播到多个设备.在处理器系统中,这些数据传送都要依赖一定的规则,PCI总线并不例外. PCI总线使用单 ...
- Caused by: java.lang.ClassNotFoundException: com.mchange.v2.ser.Indirector
1.错误描述 usage: java org.apache.catalina.startup.Catalina [ -config {pathname} ] [ -nonaming ] { -help ...
- HTML5可以省略全部标记的元素
HTML5可以省略全部标记的元素 1.body 2.colgroup 3.html 4.head 5.tbody
- winfrom如何在listview中添加控件
private Button btn = new Button(); private void Form1_Load(object sender, EventArgs e) { ListViewIte ...
- iOS - IM 即时通讯
1.即时通讯技术 即时通讯(IM:Instant Messaging):又称实时通讯,支持用户在线实时交谈,允许两人或多人使用网络实时的传递文字消息.文件.语音与视频交流. 即时通讯在开发中使用的场景 ...
- Hibernate最全面试题
Hibernate常见面试题 Hibernate工作原理及为什么要用? Hibernate工作原理及为什么要用? 读取并解析配置文件 读取并解析映射信息,创建SessionFactory 打开Sess ...
- Spring的Bean有哪些作用域?
Spring的Bean有以下五种作用域: 1.singleton:SpringIOC容器只会创建该Bean的唯一实例: 2.prototype:每次请求都创建一个实例: 3.requset:每次HTT ...
- 【BZOJ3527】力(FFT)
[BZOJ3527]力(FFT) 题面 Description 给出n个数qi,给出Fj的定义如下: \[Fj=\sum_{i<j}\frac{q_i q_j}{(i-j)^2 }-\sum_{ ...
- 【洛谷1131】【ZJOI2007】时态同步
题面 题目描述 小Q在电子工艺实习课上学习焊接电路板.一块电路板由若干个元件组成,我们不妨称之为节点,并将其用数字1,2,3-.进行标号.电路板的各个节点由若干不相交的导线相连接,且对于电路板的任何两 ...
- [BZOJ2467] [中山市选2010] 生成树 (排列组合)
Description 有一种图形叫做五角形圈.一个五角形圈的中心有1个由n个顶点和n条边组成的圈.在中心的这个n边圈的每一条边同时也是某一个五角形的一条边,一共有n个不同的五角形.这些五角形只在五角 ...