大多 IT 运营支撑同学都有过深夜业务应用突然故障的经历,监控系统准确告警,但是白天筋疲力尽的运维同学在熟睡中,经常会遗漏告警提醒;往往是接到主管电话(用户投诉了)才处理。有什么办法解决该问题呢?大多人是这么做的:

建立7x24小时的一线值班团队,搞一个监控室,值班人员随时警备,负责告警响应和协调调度工作。一年至少花费:4人(2班)x15万/年=60万/年,也就土豪公司的可以搞搞,中小型公司肿么办?

我们部分赞同该思路:

建立7x24小时的 on-call 机制,随时响应解决,通过团队协作的机制来进行保障。

但在具体的方法和形式上,需要一个好的工具是可以支撑起7x24小时的 on-call 团队,重点之一是:

有效的告警通知,而且是通知必达(如主管电话)。

如何通知必达?

OneAlert 之前已经支持了微信、短信、邮件、移动APP、页面级提醒,新版4.1.2.0新增电话通知,再也不怕深夜故障啦。

这次优化包括2部分:

  • 新增电话提醒,智能语音播报告警内容,即使是深夜,你也能够及时唤醒,第一时间处理故障。避免手机网络不稳定引起的微信、邮件、移动 APP 不及时现象,基本上电话是不可抗拒的,除非关机。当然如果关机的话(7x24不允许关机),OneAlert 的升级分派策略会同时通知其他同学。

  • 阶梯式延迟提醒通知。告警事件过来后,多个渠道可以延迟的方式通知。如果在这个过程中有人响应该告警了,那么就没有必要进行后续的提醒通知了。例如同时通知给2名值班同学 A 和 B,其中同学 A 收到微信提醒后,确认(响应)该告警了,那么同学 B 就不会继续收电话通知了。

7x24 on-call

回到原先的话题,如何构建7x24 on-call 机制去及时响应故障。

  • 将监控系统的告警接入到 OneAlert ,可参考云告警接入
  • 将 on-call 团队成员加入告警分派中,可参考告警分派
  • 每个人设置通知方式,特别是电话通知作为最后的杀手锏。

中小企业运维支撑同学就可构建一个 on-call 团队,告警事件的处理会逐渐进入正轨,并有序处理。

结束语

这次新版本发布, OneAlert 已经实现两个中国领先:通知渠道领先和接入监控平台领先。

OneAlert 作为中国领先的云告警平台,后续版本将在以下方面发展:

  • 更多的国内外主流监控工具,以及主流 IT 协作工具。
  • 更多的通知运营商和集成商,提升渠道可靠性。

免费注册

OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国第一个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问 OneAlert 官网

中小企业 IT 运维福利:快速构建 on-call 机制的更多相关文章

  1. Velocity China 2016 Web 性能与运维大会:构建快速、可扩展的弹性网站

    Velocity China 2016 Web 性能与运维大会是一场关于构建快速.可扩展的弹性网站所需要的Web性能.运维及开发运维的训练.大会将于2016年12月1日在北京拉开帷幕,此次大会被众多业 ...

  2. 《Redis开发与运维》快速笔记(一)

    1.前言&基本介绍 在原始的系统架构中,我们都由程序直接连接DB,随着业务的进一步开展,DB的压力越来越大,为了缓解DB的这一压力,我们引入了缓存,在程序连接DB中加入缓存层, 从而减轻数据库 ...

  3. 高级运维(五):构建memcached服务、LNMP+memcached、使用Tomcat设置Session、Tomcat实现session共享

    一.构建memcached服务 目标: 本案例要求先快速搭建好一台memcached服务器,并对memcached进行简单的添.删.改.查操作: 1> 安装memcached软件,并启动服务d ...

  4. IT Operations(IT 运营),运维的更价值化认识

    一直想努力向别人(甚至包括从事运维的人)解释清楚什么是运维,发现很难! 6月20号,在InfoQ高效运维群里面,对运维创业做了一次激烈的讨论,很自然地,过程中不可避免的谈到运维苦逼和运维无法产品化的问 ...

  5. (深度好文)重构CMDB,避免运维之耻

    (深度好文)重构CMDB,避免运维之耻 CMDB,几乎是每个运维人都绕不过去的字眼,但又是很多运维人的痛,因为CMDB很少有成功的,因此我也把它称之为运维人的耻辱. 那么到底错在哪儿了?该如何去重构它 ...

  6. 不看好运维竖井产品模式,优云打造融合化运维PaaS平台

    2018年1月13号中国双态运维用户大会上,优云软件总裁刘东海接受了36Kr记者的专访,期间谈到了新时代下的企业运维模式,新兴技术和传统运维的融合以及优云未来的发展方向等问题.以下为访谈实录: 优云软 ...

  7. Linux 运维入门到跑路书单推荐

    一.基础入门 <鸟哥的Linux私房菜基础学习篇>:最具知名度的Linux入门书<鸟哥的Linux私房菜基础学习篇>,全面而详细地介绍了Linux操作系统. https://b ...

  8. 重构CMDB,避免运维之耻

    CMDB,几乎是每个运维人都绕不过去的字眼,但又是很多运维人的痛,因为CMDB很少有成功的,因此我也把它称之为运维人的耻辱. 那么到底错在哪儿了?该如何去重构它? 今天我想从我的角度来和大家探讨一下业 ...

  9. IT运维如何防止陷入“中年油腻”和频繁被动地打“遭遇战”?

    欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 作者:陈峻近期,我拜访了一家文化传播公司的 IT 运维总监 Tim,他向我讲述了他的团队是如何像当年玩<大航海时代>那样将 IT ...

随机推荐

  1. "大哥,割草机借我用一下,我修整一下草坪。" ---- 谈谈this与JavaScript函数调用的不解之缘

    在写上一篇有关apply和call的博文时(闲聊JS中的apply和call),起初我还是担心大家理解起来比较困难,因为要理解apply调用方式的前提是,至少先理解在JavaScript中函数调用是什 ...

  2. 升级ionic版本后,创建新项目报Error Initializing app错误解决

    命令行,进入项目路径后,运行 ionic start myApp --v2 命令执行后,报如下错误 Installing npm packages...Error with start undefin ...

  3. 《CSS3秘笈》备忘录

    第一部分 1.  类名称区分大小写:.special和.SPECIAL不一样 2.  :focus 是通过单击或跳格集中在某个地方 3.  ::selection 没有单冒号,被选中的文本[ 但是在I ...

  4. GNU Binutils工具

    参考<程序员的自我修养---连接.装载与库> 以下内容转贴自 http://www.cnblogs.com/xuxm2007/archive/2013/02/21/2920890.html ...

  5. App性能提升方法

    总体思路:精简请求数 1.css sprit 图像拼合,将所有可拼接的所有图像拼接为一整张图像,然后再利用css中的position定位来处理,降低图片的请求数 2.懒加载:只渲染客户端用户可见区域[ ...

  6. Java包的命名规则

    按照惯例,包申明遵循特定的格式.虽然不是严格要求的Java语法,如果不遵循格式要求,大多数的Java认为你是不懂Java. 从右到左的顺序是: 1.systaxExample表明包的本地名称. 2.e ...

  7. C# WinForm设置TreeView选中节点

    这里假定只有两级节点,多级方法类似.遍历节点,根据选中节点文本找到要选中的节点.treeView.SelectedNode = selectNode; /// <summary> /// ...

  8. php读取图片内容并输出到浏览器的实现代码

    如果php以图片,zip,exe等文件输出到浏览器,而前面还输出了其他字符,就会有乱码. 代码很简单,网上都能找到,但在我机子上就是显示不出来,显示出的一直是这个php文件路径,费了点时间才搞定,原来 ...

  9. php 文件上传简单类---限制仅上传jpg文件

    php 文件上传代码,限制只能上传jpg格式文件,也可以自行添加其它扩展名的文件. <?php /* * 图片上传类 仅限JPG格式图片 * edit by www.jbxue.com at 2 ...

  10. python杂记-2(python之文件)

    文件打开函数:f = open 表1-1:open函数中模式参数常用值 打开模式 描述 'r' 读模式 'w' 写模式 'a' 追加模式 'b' 二进制模式 '+' 读/写模式 表1-2:文件对象方法 ...