应对告警风暴,Cloud Alert 实现告警风暴智能降噪
前言
睿象云前段时间发表了一篇《 Zabbix 实现电话、邮件、微信告警通知的实践分享》的技术文章。它帮助我们非常轻松地支持了各种告警通知方式,但是存在一个严重的问题,我们经常接到各种相类似或者相关联告警,短信太多,难免会出现漏看情况,告警通知几乎变成垃圾短信,也就形成了一种告警风暴。为此 Cloud Alert 智能告警平台(以下简称 CA 平台)提供了一个适配方案:【告警智能降噪】
备注:CA 平台目前正在支持更多告警方式,例如:电话、短信、微信、邮件、APP、钉钉等。
Cloud Alert 集成
首先需要安装 Cloud Alert Agent ,详情操作步骤如下:
一. 注册账号:
1. 进入官网链接 www.aiops.com,然后注册账号登录。如下图1;

图1
2. 点击 CA 平台。如下图2;

图2
二. 集成接入
1. 在点击【集成】-【监控工具】,选择 Zabbix ,如图3;

图3
2. 点击之后,填写自定义的【应用名称】和【自动关闭时间】,如图4;填好信息之后,点击【保存并获取应用key】;

图4
3. 保存之后会出现该应用的【AppKey】,如图5;

图5
同时在该页面的下方可以看到在 Zabbix 环境上安装 Agent 的详细步骤,如图6;

图6
4. 安装 Agent
(1)查看 Zabbix 脚本目录,如图7;

图7
(2)获取Cloud Alert Agent包并解压,如图8;

图8
(3)使用命令安装,如图9;

图9
(4)安装成功,如图10;

图10
设置分派策略
Agent 安装完毕之后, CA 平台可以接收到 Zabbix 所有触发器事件. 接下来配置分派策略,告知 CA 平台应该将什么级别、类型的告警分配给谁。
1. 点击【配置】-【分派策略】-【新建分派】

2. 设置分派名称-选择应用-选择分派人,然后点击保存

设置通知策略
CA 平台已经能成功将一个告警分配给一个用户,但是如何通知到用户呢?规则是什么?这个时候就需要用到设置通知策略!
1. 点击【配置】-【通知策略】-【新建通知】

2. 选择【告警状态】-选择【告警级别】-选择【通知方式】-选择【时间】-选择【延迟策略】-选择【通知人】

例子:任何时间所有级别的告警在发生时立刻电话通知
告警状态:发生 — 告警级别:所有 — 通知方式:电话 — 时间设置:任何时间 — 延迟策略:立刻 — 通知人:选择接收通知的人
备注:重要告警电话比短信靠谱的多!有时候晚上也接到电话,为避免接到一些不必要的电话,请大家严格设定。
告警智能降噪
为何要压缩告警
运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题:
- 故障期间,告警风暴,手机/邮箱会被海量告警淹没;
- 运维人员很难从海量告警从筛选出重要告警,容易忽略重要告警;
- 固定阈值控制,频繁误报、漏报告警;
CA告警压缩机制
CA 平台,适应不同行业、不同规模、不同运维水平公司的各种告警需求,平台支持多维度降噪,帮助您在不遗漏重要告警前提下,快速减少告警。
CA 平台实现告警降噪根据降噪程度不同,分为三种方式:
1:自动去重压缩;
2:规则压缩;
3:算法智能降噪。
自动去重
全量告警推送到 CA 平台后, CA 平台会自动基于时间序列,将相同的事件/告警压缩。不同监控工具去重压缩机制有细微差异:根据 eventId(事件ID)和告警对象,去除重复告警。
- 事件ID不为空:系统中有未关闭的告警,若事件ID相同,则自动合并告警;- 事件ID为空:系统中有未关闭的告警,若告警对象响应,则自动合并告警。
提示:
• 是否合并告告警,以系统中是否有未关闭的告警,如告警一直不关闭,则后推送到 CA 平台具有相同事件ID的告警会一直被合并压缩。
• 被合并的告警不会再次通知。如想收到通知,需先关闭历史告警。
规则压缩
去重后的告警,会按照压缩规则,将相似、同源(同一设备不同类型的信息)告警再次进行压缩。一共分为两种压缩机制,分别是:
1:算法智能降噪
2:自定义压缩规则降噪
算法智能降噪设置方法
1:进入路径:配置 -> 压缩规则,进入压缩规则管理界面
2:设置应用名称,选择应用-勾选“算法智能降噪”

3:选择降噪参数—选择压缩指定时间内的告警

4:设置分派策略

5:(可选)设置风暴预警

自定义压缩规则设置方法
1:进入路径:配置 -> 压缩规则,进入压缩规则管理界面
2:设置应用名称,选择应用

3:设置压缩条件:
- 按照 主机 、服务 、告警内容 、告警对象 进行关联;
- 支持 等于 、不等于 、包含 条件,支持正则匹配;
- 支持添加 且 、或 条件。

4:设置分派策略

5:(可选)设置风暴预警

APP
CA 平台提供了一个简便、轻量级的 APP 给我们使用,目前支持:任务处理(待处理、处理中、已解决)、分派策略、通知策略、成员信息查看、集成论坛交流。一个 APP 便能支持配置与接收告警通知。

总结
告警压缩将相似、关联、相同的告警合并到一个父告警,比起以往的海量告警,告警合并极大的提高了告警可读性、准确性,大大减少了告警风暴。
应对告警风暴,Cloud Alert 实现告警风暴智能降噪的更多相关文章
- Cloud Alert 实现告警智能降噪,成功规避告警风暴
# 前言 睿象云前段时间发表了一篇[< Zabbix 实现电话.邮件.微信告警通知的实践分享>](https://www.toutiao.com/i6734876723126469127/ ...
- 微信告警如何配置?用Cloud Alert快速实现微信告警
在当下互联网蓬勃发展的时代里,微信已经成为了人们生活中不可分割的一部分.作为苦逼的运维人员,我们自然也得跟得上时代的步伐,将微信添加进告警的通知方式里.如果能够将告警消息第一时间发送到微信中,更清楚地 ...
- 运维告警排班太复杂?试试Cloud Alert智能告警排班
前言: 之前的几篇文章有说过,通过智能告警平台Cloud Alert,将指定条件的告警以多样化的通知方式,通知到指定的人,其中的通知的方式包含电话.短信.邮件.微信.APP.钉钉等. 本篇文章就来说下 ...
- Zabbix + Cloud Alert 实践分享
前言 如果要问老牌开源监控工具泰斗,当zabbix莫属.之前已分享过 [Kubernetes+Promethues+Cloud Alert实践分享],本篇将继续分享 Zabbix + Cloud Al ...
- 有了Cloud Alert电话报警,再也不怕遗漏告警了
Cloud Alert 的部分应用部署在阿里云上,使用了多方面的监控服务: 阿里自身的ECS服务器和网站. Zabbix 监控服务器应用程序. OneAPM 的应用级监控. 腾讯云拨测,做网站监控. ...
- Oracle-11g 中当执行 DBMS_STATS 时,因数据泵外部表文件缺失 Alert Log 告警 "ORA-20011、ORA-29913" 以及 "KUP-XXXXX"错误
:first-child { margin-top: 0; } blockquote > :last-child { margin-bottom: 0; } img { border: 0; m ...
- Zabbix集成Cloud Alert(睿象云)实现电话短信预警
Zabbix 集成 睿象云智能告警平台 CA ( Cloud Alert ) 一 .简介与前期了解 Cloud Alert 通过应用,接入监控系统/平台的告警,集中管理您的告警,统一分派通知,统一分析 ...
- Kubernetes+Promethues+Cloud Alert实践分享
前言 容器集群管理系统 Kubernetes(简称K8s),为容器化的应用提供部署运行.容器编排.负载均衡.服务发现和动态伸缩等一系列完整功能,Prometheus 对 K8s 支持非常棒,能够自动发 ...
- zabbix 集成cloud alert
1. 了解 Cloud Alert 通过应用,接入监控系统/平台的告警,集中管理您的告警,统一分派通知,统一分析.这个平台最先了解和使用是在 2017 年下半年,之前的名称叫 oneits ...
随机推荐
- 你想了解的《javaScript语言精粹》(三)
# javaScript语言精粹 # 第三章 对象 - javaScript 数据类型 1. 基础数据类型 Number String Boolean Undefined N ...
- 机器学习 KNN算法原理
K近邻(K-nearst neighbors,KNN)是一种基本的机器学习算法,所谓k近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表.比如:判断一个人的人品,只需要观察 ...
- [论文阅读]阿里DIN深度兴趣网络之总体解读
[论文阅读]阿里DIN深度兴趣网络之总体解读 目录 [论文阅读]阿里DIN深度兴趣网络之总体解读 0x00 摘要 0x01 论文概要 1.1 概括 1.2 文章信息 1.3 核心观点 1.4 名词解释 ...
- selenium环境配置学习笔记
一 为什么进行自动化测试 缩短测试周期 避免人为出错 测试信息存储 轻易获取覆盖率 二 web/ui自动化条件和适用范围 手工测试已经完成,后期在不影响进度的前提下逐渐实现自动化 项目周期长,重复性工 ...
- golang 爬取百度贴吧绝地求生页面
package main import ( "github.com/antchfx/htmlquery" "io" "net/http" & ...
- beego路由
router.go package routersimport ( "beego01/controllers" "github.com/astaxie/beego&quo ...
- zookeeper的客户端常用操作
一,查看当前zookeeper的版本: [root@localhost conf]# echo stat|nc 127.0.0.1 2181 Zookeeper version: 3.5.6-c11b ...
- asp.net web 定时执行任务 定时器 Global.asax
web网站里面,需要每隔1分钟,执行一个任务,并且一直保持这个定时执行状态,可以用如下一个方法: 以下代码是 Global.asax.cs 的全部代码. using System; using Sys ...
- Python函数名的应用和新特性格式化输出
1.函数名指向的是函数的内存地址. def func(): print(123) print(func,type(func)) # <function func at 0x000000000 ...
- zk配置文件详解
zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg,需要将其修改为zoo.cfg.其中各配置项的含义,解释如下: 1.tickTime:CS通信心跳数 Zoo ...