玩转Zabbix智能告警:降噪、排班、认领、升级、IM协同

Zabbix作为一款流行的企业级监控工具,可以监控各种网络设备和服务的状态,并提供强大的告警功能,能够在出现异常情况时及时通知管理员。以下是Zabbix的一些特点:
- 支持多种监控方式,包括SNMP、JMX、IPMI等,可以监控各种网络设备、服务器、虚拟化平台等;
- 提供了丰富的监控项和模板,可以轻松地监控各种指标,如CPU、内存、磁盘、网络等;
- 提供了灵活的告警方式,可以通过邮件、短信、电话等方式通知管理员,并且可以根据不同的告警级别设置不同的通知方式。
尽管Zabbix在监控和告警方面非常强大,但在处理告警事件方面仍有不足之处:
- 缺乏告警降噪和抑制风暴的能力;
- 没有提供oncall值班调度的能力;
- 没有提供IM工具内闭环处理告警的能力;
- 告警协同处理能力薄弱,没有数据沉淀和分析。
不仅仅是Zabbix,很多告警系统存在类似的问题,而FlashDuty正是为了解决这些问题而存在:
- 提供丰富的集成来源,支持接收Zabbix等告警事件,在一个平台处理公司内所有告警;
- 提供灵活的告警降噪、聚合、静默、抑制、收敛能力,避免告警风暴,不错过任何敏感信息;
- 提供强大的值班能力,支持各种排班场景,告警仅通知对的人;
- 打通飞书、钉钉和企业微信,真正做到在IM内部随时随地处理告警;
- 提供完善告警协同、故障协同能力,支持知识沉淀和关键指标分析。
快速接入Zabbix告警
FlashDuty支持接入Zabbix 3.x~6.x 所有版本的告警事件。不同版本接入方式略有不同:
- 3.x~4.x版本:支持Script方式接入
- 5.x~6.x版本:支持Webhook方式以及脚本方式接入
Webhook接入方式(3步,详情参照文档,本文仅简述):
- 下载并导入FlashDuty定制的Media Type,配置好URL等信息
- 关联FlashDuty Media Type到一个User
- 创建Action,配置触发、恢复与更新Operations通过FlashDuty Media Type发送信息到User
Script接入方式(4步,详情参照文档,本文仅简述):
- 创建Script类型的Media Type,配置好Parameters
- 登录 Zabbix server 所在服务器,切换到脚本目录,下载并导入FlashDuty定制的推送脚本
- 关联FlashDuty Media Type到一个User
- 创建Action,配置触发、恢复与更新Operations通过FlashDuty Media Type发送信息到User。注意修改Default Message配置,FlashDuty将解析Message中加密的信息,来获得更丰富的告警详情
Zabbix告警详情:
- FlashDuty提取Zabbix告警详情中的部分信息作为标签

2.多条相关的原始告警信息将被合并到一条告警中,可以在关联事件中回溯

设定灵活的触达策略
FlashDuty通知策略非常灵活,可以针对不同场景设定不同的通知策略:
- 支持按照
时间和条件来过滤事件,并发送到不同的人群; - 支持设置
聚合发送窗口,如果在等待期内告警自动恢复或被人工处理,则不会发送该条告警; - 支持单聊群聊通知方式,以及多样的通知渠道。推荐以IM方式进行通知;
- 支持告警在不同人群中升级;

- 支持自定义通知模板渲染(Golang模板语法及上百种常用函数),配合预览调试能力;

- 支持告警静默、告警抑制,提前设定策略,减少不必要的告警通知。

设置专属值班日历
支持日常值班、节假日值班、临时调班等值班场景,支持自定义值班角色等高级选项,可灵活扩展。

自定义值班角色为高级功能,需要联系我们开通
在IM内外处理告警
全面打通飞书、钉钉和企业微信,支持在聊天页面直接处理告警,操作状态将在多端同步,真正做到随时随地处理告警
- 首次登录即完成账户关联,后续免登录
- 提供关键功能按钮,可以直接在卡片消息上操作
- 处理进度实时同步卡片,全员可见
以下分别为在飞书、钉钉和企业微信iOS客户端内处理告警过程:



查看告警治理趋势分析
支持统计关键的告警治理指标:
- 支持告警、故障的MTTx指标按多维度统计;
- 支持告警、故障等数量统计;
- 支持TopK告警策略和告警对象发现。

最后
总的来说,FlashDuty可以弥补Zabbix等监控系统在告警降噪、值班调度、告警协同处理等方面的不足。它支持多种告警来源,灵活的告警降噪和静默功能,强大的值班能力,以及完善的告警协同、故障处理、趋势分析能力。
如果您正在寻找一款更好的告警处理系统,那么FlashDuty值得一试。现在点击链接完成注册,自动获得专业版14天试用机会!
玩转Zabbix智能告警:降噪、排班、认领、升级、IM协同的更多相关文章
- 运维告警排班太复杂?试试Cloud Alert智能告警排班
前言: 之前的几篇文章有说过,通过智能告警平台Cloud Alert,将指定条件的告警以多样化的通知方式,通知到指定的人,其中的通知的方式包含电话.短信.邮件.微信.APP.钉钉等. 本篇文章就来说下 ...
- 详解 OneAlert 排班可以帮你做什么
排班的存在,实质是通过有序安排,降低企业/团队人力成本,提升工作效率. 阅读导航(预计2min) 1. 详解排班功能 轮班机制 工作时间 双视图展示 灵活调整 2. 利用排班如何助力运维团队 排班 ...
- Zabbix全方位告警接入-电话/微信/短信都支持
百度告警平台地址: http://gaojing.baidu.com 联系我们: 邮箱:gaojing@baidu.com 电话:13924600771 QQ群:183806029 对于使用zabbi ...
- zabbix邮件告警
Zabbix邮件告警看了很多文档,写的那叫一个蛋疼,明明没有发出去邮件,硬要糊弄观众,我也跟着被糊弄. 操作系统环境: CentOS 5.5 x84_64位 Zabbix版本2.2.3 Web服务器: ...
- 通过python为zabbix发送告警邮件
最近部署ZABBIX的邮件告警时,用刚学的python来写告警邮件脚本. 由于时间有限,我只对关键步骤做截图,对zabbix的基本配置略过. python代码如下 1 #!/usr/bin/pytho ...
- 使用SQL语句使数据从坚向排列转化成横向排列(排班表)
知识重点: 1.extract(day from schedule01::timestamp)=13 Extract 属于 SQL 的 DML(即数据库管理语言)函数,同样,InterBase 也支持 ...
- zabbix监控告警Received empty response from Zabbix Agent Assuming that agent dropped connection
zabbix监控告警Received empty response from Zabbix Agent Assuming that agent dropped connection错误 查看zabbi ...
- Google Optimization Tools实现员工排班计划Scheduling【Python版】
上一篇介绍了<使用.Net Core与Google Optimization Tools实现员工排班计划Scheduling>,这次将Google官方文档python实现的版本的完整源码献 ...
- 使用.NET Core与Google Optimization Tools实现员工排班计划Scheduling
上一篇说完<Google Optimization Tools介绍>,让大家初步了解了Google Optimization Tools是一款约束求解(CP)的高效套件.那么我们用.NET ...
- zabbix邮件告警之 通过shell脚本发送告警
说明:本文讲如何通过shell脚本实现zabbix发送告警邮件,共有5步1.设置mailx账号:是配置mailx的发信账号2.zabbix服务器端编写邮件发送脚本:是增加zabbix的告警方式,增加通 ...
随机推荐
- 云原生微服务的下一站,微服务引擎 MSE 重磅升级
简介:管好微服务,成为云原生时代的新难题. 管好微服务,成为云原生时代的新难题. 从建好微服务到管好微服务,差的虽是一个字,连接起两边的却需要大量的微服务落地经验.因为软件架构的核心挑战是解决业务快 ...
- OpenKruise v1.1:功能增强与上游对齐,大规模场景性能优化
简介:在 v1.1 版本中,OpenKruise 对不少已有功能做了扩展与增强,并且优化了在大规模集群中的运行性能.以下对 v1.1 的部分功能做简要介绍. 作者:酒祝(王思宇) 云原生应用自动化管理 ...
- Spring Boot 微服务性能下降九成!使用 Arthas 定位根因
简介: 接收到公司业务部门的开发反馈,应用在升级公司内部框架后,UAT(预生产)环境接口性能压测不达标. 背景 接收到公司业务部门的开发反馈,应用在升级公司内部框架后,UAT(预生产)环境接口性能压测 ...
- Hologres揭秘:高性能原生加速MaxCompute核心原理
简介: Hologres技术揭秘系列持续更新中,本期我们将带来Hologres高性能原生加速查询MaxCompute的技术原理解析. Hologres(中文名交互式分析)是阿里云自研的一站式实时数仓, ...
- 【详谈 Delta Lake 】系列技术专题 之 湖仓一体( Lakehouse )
简介: 本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章.众所周知,Databricks 主导着开源大数据社区 Apache Spark.Delta L ...
- 一图速览 | DTCC 2021大会,阿里云数据库技术大咖都聊了些什么?
简介: 3天9场干货分享,快来收藏吧! 10月18日~10月20日, 由国内知名IT技术社区主办的数据库技术交流盛会--DTCC 2021 (第十一届中国数据库技术大会)在京圆满落幕.大会以&quo ...
- [FAQ] 部署二进制运行时 go-ego/gse 如何正确加载分词字典
运行Golang编译后二进制运行时,此时运行二进制时所在目录就是Golang源码程序认为的根目录了. 所以只需要把字典文件拷贝到与二进制所在同一目录内,然后使用 seg.LoadDict('dicti ...
- dotnet 6 通过 DOTNET_ROOT 让调起的应用的进程拿到共享的运行时文件夹
我的应用是独立发布的,在用户的设备上不需要额外去安装 .NET 运行时.但是我的应用有一个需求是下载另一个应用作为插件,由本应用调起插件进程.本文告诉大家如何解决调用插件的进程时,赋值给插件进程运行时 ...
- dotnet 谨慎在静态构造函数里使用锁
在 dotnet 的最佳实践里面,不推荐在静态构造函数里面包含复杂的逻辑,其中也就包含了本文聊的和多线程相关的锁的使用.最佳做法是尽量不要在静态构造函数里面碰到任何和锁以及多线程安全相关的逻辑.本文来 ...
- 通过AMDP调用HANA的PAL函数
SAP预测分析库(SAP Predictive Analysis Library,PAL)是SAP HANA中的一项功能,它允许我们在SAP HANA SQLScript过程中执行分析算法. 基于AB ...