# 前言

睿象云前段时间发表了一篇[《 Zabbix 实现电话、邮件、微信告警通知的实践分享》](https://www.toutiao.com/i6734876723126469127/)的技术文章。它帮助我们非常轻松地支持了各种告警通知方式,但是存在一个严重的问题,我们经常接到各种相类似或者相关联告警,短信太多,难免会出现漏看情况,告警通知几乎变成垃圾短信。为此 [Cloud Alert 智能告警平台](https://www.aiops.com/CAIntroduce.html)(以下简称 CA 平台)提供了一个适配方案:【告警智能降噪】
备注:CA 平台目前正在支持更多告警方式,例如:电话、短信、微信、邮件、APP、钉钉等。

# Cloud Alert 集成

首先需要安装 Cloud Alert Agent ,详情操作步骤如下:

一. 注册账号:

1. 进入[官网链接](www.aiops.com),然后注册账号登录。如下图1;

![](https://img.xiumi.us/xmi/ua/24qBb/i/652a110379c8d72d11a1b81e437c1d11-sz_171860.png)

图1

2. 点击 CA 平台。如下图2;

![](https://img.xiumi.us/xmi/ua/24qBb/i/c6177b223d2fad3a0a131fffa2a173d4-sz_198885.png)

图2

二. 集成接入

1. 在点击【集成】-【监控工具】,选择 Zabbix ,如图3;

![](https://img.xiumi.us/xmi/ua/24qBb/i/d54b3729239f9aa76b667eb6220aac0d-sz_24782.png)

图3

2. 点击之后,填写自定义的【应用名称】和【自动关闭时间】,如图4;填好信息之后,点击【保存并获取应用key】;

![](https://img.xiumi.us/xmi/ua/24qBb/i/082fbf93529f2b49309e406b40ffd0ec-sz_76567.png)

图4

3. 保存之后会出现该应用的【AppKey】,如图5;

![](https://img.xiumi.us/xmi/ua/24qBb/i/d1c270ef9a20952de071e39529f812b8-sz_13448.png)

图5

同时在该页面的下方可以看到在 Zabbix 环境上安装 Agent 的详细步骤,如图6;

![](https://img.xiumi.us/xmi/ua/24qBb/i/861cc1f24f13fd04c000c2aeb470ed2e-sz_26465.png)

图6

4. 安装 Agent

(1)查看 Zabbix 脚本目录,如图7;

![](https://img.xiumi.us/xmi/ua/24qBb/i/879fbb800d2480dfc00971e27637c0cd-sz_30815.png)

图7

(2)获取Cloud Alert Agent包并解压,如图8;

![](https://img.xiumi.us/xmi/ua/24qBb/i/b1fc08991edf43e786c0e161c141ef07-sz_24864.png)

图8

(3)使用命令安装,如图9;

![](https://img.xiumi.us/xmi/ua/24qBb/i/b4e020ec2d58bd412ddf704646bb7f08-sz_16221.png)

图9

(4)安装成功,如图10;

![](https://img.xiumi.us/xmi/ua/24qBb/i/1caf78d144df8921f7b9e818d4efecb3-sz_64623.png)

图10

## 设置分派策略

Agent 安装完毕之后, CA 平台可以接收到 Zabbix 所有触发器事件. 接下来配置分派策略,告知 CA 平台应该将什么级别、类型的告警分配给谁。

1. 点击【配置】-【分派策略】-【新建分派】

![](https://img.xiumi.us/xmi/ua/24qBb/i/bc4b23c4bf301ac10c60c490bdf8d597-sz_4963.png)

2. 设置分派名称-选择应用-选择分派人,然后点击保存

![](https://img.xiumi.us/xmi/ua/24qBb/i/b61c72e5f9a81c58ec201d7f5e43bbd7-sz_5412.png)

## 设置通知策略

CA 平台已经能成功将一个告警分配给一个用户,但是如何通知到用户呢?规则是什么?这个时候就需要用到设置通知策略!

1. 点击【配置】-【通知策略】-【新建通知】

![](https://img.xiumi.us/xmi/ua/24qBb/i/cbaeea6863bb0dbf63634bba1cd4aba9-sz_5205.png)

2. 选择【告警状态】-选择【告警级别】-选择【通知方式】-选择【时间】-选择【延迟策略】-选择【通知人】

![](https://img.xiumi.us/xmi/ua/24qBb/i/5a7e1d2dbfcd14a193b63d25389f9cc1-sz_40764.png)

例子:任何时间所有级别的告警在发生时立刻电话通知

告警状态:发生 — 告警级别:所有 — 通知方式:电话 — 时间设置:任何时间 — 延迟策略:立刻 — 通知人:选择接收通知的人

备注:重要告警电话比短信靠谱的多!有时候晚上也接到电话,为避免接到一些不必要的电话,请大家严格设定。

# 告警智能降噪

为何要压缩告警

运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题:

- 故障期间,告警风暴,手机/邮箱会被海量告警淹没;

- 运维人员很难从海量告警从筛选出重要告警,容易忽略重要告警;

- 固定阈值控制,频繁误报、漏报告警;

## CA告警压缩机制

CA 平台,适应不同行业、不同规模、不同运维水平公司的各种告警需求,平台支持多维度降噪,帮助您在不遗漏重要告警前提下,快速减少告警。

CA 平台实现告警降噪根据降噪程度不同,分为三种方式:

1:自动去重压缩;

2:规则压缩;

3:算法智能降噪。

## 自动去重

全量告警推送到 CA 平台后, CA 平台会自动基于时间序列,将相同的事件/告警压缩。不同监控工具去重压缩机制有细微差异:根据 eventId(事件ID)和告警对象,去除重复告警。

- 事件ID不为空:系统中有未关闭的告警,若事件ID相同,则自动合并告警;- 事件ID为空:系统中有未关闭的告警,若告警对象响应,则自动合并告警。

提示:

• 是否合并告告警,以系统中是否有未关闭的告警,如告警一直不关闭,则后推送到 CA 平台具有相同事件ID的告警会一直被合并压缩。

• 被合并的告警不会再次通知。如想收到通知,需先关闭历史告警。

## 规则压缩

去重后的告警,会按照压缩规则,将相似、同源(同一设备不同类型的信息)告警再次进行压缩。一共分为两种压缩机制,分别是:

1:算法智能降噪

2:自定义压缩规则降噪

## 算法智能降噪设置方法

1:进入路径:配置 -> 压缩规则,进入压缩规则管理界面

2:设置应用名称,选择应用-勾选“算法智能降噪”

![](https://img.xiumi.us/xmi/ua/24qBb/i/599e434ec175525e4d0f56a69766c288-sz_5097.png)

3:选择降噪参数—选择压缩指定时间内的告警

![](https://img.xiumi.us/xmi/ua/24qBb/i/6448d7953eec546e20508973103eabdf-sz_18328.png)

4:设置分派策略

![](https://img.xiumi.us/xmi/ua/24qBb/i/d407a86d05a50c3cc19767b9452c426d-sz_13937.png)

5:(可选)设置风暴预警

![](https://img.xiumi.us/xmi/ua/24qBb/i/a5a2f362546c7fba7f9b5ff28aae4f41-sz_19529.png)

## 自定义压缩规则设置方法

1:进入路径:配置 -> 压缩规则,进入压缩规则管理界面

2:设置应用名称,选择应用

![](https://img.xiumi.us/xmi/ua/24qBb/i/8f8faffeabdc7654543575850208b8cd-sz_7172.png)

3:设置压缩条件:

- 按照 主机 、服务 、告警内容 、告警对象 进行关联;

- 支持 等于 、不等于 、包含 条件,支持正则匹配;

- 支持添加 且 、或 条件。

![](https://img.xiumi.us/xmi/ua/24qBb/i/ef318e70016a38d16b55a67452d6a13c-sz_7474.png)

4:设置分派策略

![](https://img.xiumi.us/xmi/ua/24qBb/i/0fe7270d83a9291cf4f82300f3ffb42c-sz_9034.png)

5:(可选)设置风暴预警

![](https://img.xiumi.us/xmi/ua/24qBb/i/a9cdd6b7ef4a6499e87bff28e27b38b5-sz_10985.png)

#  APP

CA 平台提供了一个简便、轻量级的 APP 给我们使用,目前支持:任务处理(待处理、处理中、已解决)、分派策略、通知策略、成员信息查看、集成论坛交流。一个 APP 便能支持配置与接收告警通知。

![](https://img.xiumi.us/xmi/ua/24qBb/i/7024c0c3318ffef1662aa2d148ec8a3d-sz_16385.png)

![](https://img.xiumi.us/xmi/ua/24qBb/i/046c3915ac28751af97b7af57d722fff-sz_24994.png)

# 总结

告警压缩将相似、关联、相同的告警合并到一个父告警,比起以往的海量告警,告警合并极大的提高了告警可读性、准确性。

Cloud Alert 实现告警智能降噪,成功规避告警风暴的更多相关文章

  1. 有了Cloud Alert电话报警,再也不怕遗漏告警了

    Cloud Alert 的部分应用部署在阿里云上,使用了多方面的监控服务: 阿里自身的ECS服务器和网站. Zabbix 监控服务器应用程序. OneAPM 的应用级监控. 腾讯云拨测,做网站监控. ...

  2. 应对告警风暴,Cloud Alert 实现告警风暴智能降噪

    前言 睿象云前段时间发表了一篇< Zabbix 实现电话.邮件.微信告警通知的实践分享>的技术文章.它帮助我们非常轻松地支持了各种告警通知方式,但是存在一个严重的问题,我们经常接到各种相类 ...

  3. Zabbix + Cloud Alert 实践分享

    前言 如果要问老牌开源监控工具泰斗,当zabbix莫属.之前已分享过 [Kubernetes+Promethues+Cloud Alert实践分享],本篇将继续分享 Zabbix + Cloud Al ...

  4. Kubernetes+Promethues+Cloud Alert实践分享

    前言 容器集群管理系统 Kubernetes(简称K8s),为容器化的应用提供部署运行.容器编排.负载均衡.服务发现和动态伸缩等一系列完整功能,Prometheus 对 K8s 支持非常棒,能够自动发 ...

  5. 运维告警排班太复杂?试试Cloud Alert智能告警排班

    前言: 之前的几篇文章有说过,通过智能告警平台Cloud Alert,将指定条件的告警以多样化的通知方式,通知到指定的人,其中的通知的方式包含电话.短信.邮件.微信.APP.钉钉等. 本篇文章就来说下 ...

  6. 微信告警如何配置?用Cloud Alert快速实现微信告警

    在当下互联网蓬勃发展的时代里,微信已经成为了人们生活中不可分割的一部分.作为苦逼的运维人员,我们自然也得跟得上时代的步伐,将微信添加进告警的通知方式里.如果能够将告警消息第一时间发送到微信中,更清楚地 ...

  7. Zabbix集成Cloud Alert(睿象云)实现电话短信预警

    Zabbix 集成 睿象云智能告警平台 CA ( Cloud Alert ) 一 .简介与前期了解 Cloud Alert 通过应用,接入监控系统/平台的告警,集中管理您的告警,统一分派通知,统一分析 ...

  8. zabbix 集成cloud alert

    1.       了解 Cloud Alert 通过应用,接入监控系统/平台的告警,集中管理您的告警,统一分派通知,统一分析.这个平台最先了解和使用是在 2017 年下半年,之前的名称叫 oneits ...

  9. 如何把关联性的告警智能添加到 Nagios 上?(2)

    上节回顾 对于许多 IT 和运维团队来说,Nagios 既是一个福音也是一个诅咒.一方面,Naigos 在 IT 应用的工作领域中,给予了你可以实时查看告警数据的可能性:但是另一方面,Nagios 也 ...

随机推荐

  1. socket_http

    socket_http import socket from urllib.parse import urlparse import time def get_url(url): # 通过socket ...

  2. Nginx介绍(一)

    Nginx (engine x) 是一个高性能的HTTP和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务. Nginx最大的特点是对高并发的支持和高效的负载均衡,在高并发的需求场景 ...

  3. LG1198/BZOJ1012 「JSOI2008」最大数 线段树+离线

    问题描述 LG1198 BZOJ1012 题解 我们把所有操作离线,设一共有\(n\)个插入操作. 于是提前建立\(n\)个数,全部设为\(-INF\) 接着逐个处理操作即可. \(\mathrm{C ...

  4. cerely-分布式异步任务队列

    Celery 是一个强大的 分布式任务队列 的 异步处理框架,它可以让任务的执行完全脱离主程序,甚至可以被分配到其他主机上运行.我们通常使用它来实现异步任务(async task)和定时任务(cron ...

  5. elasticsearch 7.5.0 学习笔记

    温馨提示:电脑端看不到右侧目录的话请减小缩放比例. API操作-- 新建或删除查询索引库 新建索引库 新建index,要向服务器发送一个PUT请求,下面是使用curl命令新建了一个名为test的ind ...

  6. Spring Cloud Feign高级应用

    1.使用feign进行服务间的调用 spring boot2X整合nacos一使用Feign实现服务调用 2.开启gzip压缩 Feign支持对请求与响应的压缩,以提高通信效率,需要在服务消费者配置文 ...

  7. .net core —— 控制台如何获取配置文件的内容?

    本文链接:https://blog.csdn.net/yenange/article/details/82457761参考: https://github.com/liuzhenyulive/Json ...

  8. 用Java编程能给物联网(IoT)带来什么优势与不同?

    用Java编程能给物联网(IoT)带来什么优势与不同? 这是一个不太容易回答的问题,也是一个适合拿出来与大家讨论的一个话题~首先需要聊聊物联网硬件与嵌入式设备有什么不同.嵌入式设备通常是一个软件一体的 ...

  9. 第十一次作业 LL(1)文法的判断,递归下降分析程序

    1. 文法 G(S): (1)S -> AB (2)A ->Da|ε (3)B -> cC (4)C -> aADC |ε (5)D -> b|ε 验证文法 G(S)是不 ...

  10. Java : Hibernate 动态+分页+自定义字段+自定义实体类查询

    // 组合查询public List<ListBookDTO> listSetDSL(PublishingHouse publishingHouse,Integer minDiscount ...