简介: SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台

1.目标定位

1.1背景

  • 告警管控平台种类繁多
  • 告警出现后未及时发现处理最终导致故障产生
  • 专有云监控能力拉起依赖版本升级,操作复杂,迭代慢
  • 异常问题和故障的感知力不如客户

1.2目标

  • 制定告警数据接入规范
  • 实现告警统一集中展示
  • 建设多种告警外发通知
  • 独立部署、快速迭代
  • 告警严重程度区分,提升感知力

1.3定位

图1:TAC定位

2.平台简介

2.1介绍

SRE技术保障平台-盯屏中心(TAC-TAM Alarm Center)是TAM为混合云精心打造的一站式告警运维平台,覆盖混合云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助混合云平台快速发现、定位异常问题,协助产品团队促进产品改进。

2.2特点

2.2.1告警汇聚

  • 默认集成:云平台、大数据、云实例、站点应用
  • 支持扩展:自定义监控

2.2.2报警通道

  • 钉钉&本地化钉钉
  • 短信服务
  • 企业邮箱
  • 警务微信

2.3业务服务流程

图2:TAC业务服务流程图

3.主要功能及界面展示

3.1告警盯屏中心

  • 实时展示云平台当前所有的告警数据以及列出近7天的产品告警TOP排行, 一目了然告警数据, 提升感知力。
图3:告警盯屏中心界面展示

3.2SRE运维大盘

  • 通过指标化,更方便查看产品的健康状况,判断是否有故障;
  • 指标项包含:健康率、成功率、转实例、准时率、正常率、运行率、使用率、写成功率、读成功率。
图4:SRE运维大盘界面展示

3.3告警工作台

  • 用户可以在平台告警页面上认领新增的待处理告警,线下处理完成后可以在我的告警页面上关闭该告警。
  • 当认领了自己不擅长处理的产品告警,可以通过线上转发的方式移交给擅长处理的同学。
  • 若出现长期无法处理的告警,在确认无影响的情况下可以选择忽略该告警,避免一直外发造成消息轰炸。
  • 自动恢复的告警无需手动认领关闭,在历史告警中可以进行查看。
图5:告警工作台界面展示

3.4事件服务中心

打破签字、短信、邮件式古老的运维管理方式,为客户将众多的线下流程移⾄线上,预设相应的管理体系,以线上提交、线上反馈的模式,可以统一管理、追踪闭环、数据存档,为⽇常流程管理工作提供更多解决⽅法,逐步代替线下管理。

图6:事件服务中心界面展示

3.5告警控制策略

  • 支持设置自动分派策略,当指定产品出现告警自动认领告警;
  • 当天首次出现的告警立即通知,非首次出现的告警遵循1440分钟的静默期后通知;
  • 支持控制告警发送时的状态,“发生时”、“认领时”、“关闭时”;
  • 支持预约在指定的时间范围内使某一类型的告警进入静默期,告警外发暂时失效;
  • 支持对告警推送的告警类型,产品,级别,部门,项目等进行自定义配置。
图7:告警控制策略界面展示

3.6告警推送策略

  • 提供用户体系,系统会识别用户的手机号码以及邮箱地址来发送告警;
  • 提供钉钉、短信、邮件的外发的webhook,api接口的配置;
  • 可以选择的一个或多个告警策略自定义配置推送告警
图8:告警推送策略界面展示

3.7监控网关

  • 支持在监控任务页面配置用户关心的网站、机器或某个接口,TAC根据规则进行监控;
  • 若现场之前有提供过黑屏化的监控工具,用户可以在注册API页面注册一个APP,根据接口调用规范将监控结果上报至TAC以第三方告警来展示和外发。
图9:监控网关界面展示

3.8钉钉通知

图10:钉钉通知效果展示

4.结语

目前,混合云多数项目已通过TAC实现告警通知功能。有效提高告警处理效率,减少因告警未及时处理导致故障的情况,大幅提高项目运维质量,减少项目人力投入成本。

作者:黄家亮  阿里云智能GTS-SRE团队资深技术支持工程师

原文链接

本文为阿里云原创内容,未经允许不得转载

SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台的更多相关文章

  1. 《开源安全运维平台OSSIM最佳实践》

    <开源安全运维平台OSSIM最佳实践> 经多年潜心研究开源技术,历时三年创作的<开源安全运维平台OSSIM最佳实践>一书即将出版.该书用80多万字记录了,作者10多年的IT行业 ...

  2. 《开源安全运维平台:OSSIM最佳实践》内容简介

    <开源安全运维平台:OSSIM最佳实践 > 李晨光 著 清华大学出版社出版 内 容 简 介在传统的异构网络环境中,运维人员往往利用各种复杂的监管工具来管理网络,由于缺乏一种集成安全运维平台 ...

  3. sso 自动化运维平台

    单点登录SSO(Single Sign-On)是身份管理中的一部分.本文中作者开发了一个自动化运维平台中的统一认证接口,单点登录平台通过提供统一的认证平台,实现单点登录.因此,应用系统并不需要开发用户 ...

  4. #研发解决方案#iDB-数据库自动化运维平台

    郑昀 创建于2015/12/2 最后更新于2015/12/2 关键词:数据库,MySQL,自动化运维,AutoDDL,刷库,帐号授权,审核,回滚 提纲: 数据库自动化运维什么?别人家是怎么玩的? 我们 ...

  5. saltstack---自动化运维平台

    https://github.com/ixrjog/adminset[自动化运维平台:CMDB.CD.DevOps.资产管理.任务编排.持续交付.系统监控.运维管理.配置管理 ] https://ww ...

  6. 运维平台cmdb开发-day1

    序读项目由来 终极目标,运维平台.自动化.装机,监控,安装软件,部署基础服务,资产管理,之前是excel,现在是客户端自动获取,变更记录 后台管理 api 采集资产 四种模式agent 定时,每天执行 ...

  7. CentOS 7.5 部署蓝鲸运维平台

    环境准备 官方建议 准备至少3台 CentOS 7 以上操作系统的机器 最低配置:2核4G 建议配置: 4核12G 以上 部署前关闭待安装主机之间防火墙,保证蓝鲸主机之间通信无碍 部署前关闭SELin ...

  8. 【I·M·U_Ops】------Ⅱ------ IMU自动化运维平台之CMDB

    说明本脚本仅作为学习使用,请勿用于任何商业用途.本文为原创,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接和本声明. #A 我理解的 CMDB CMDB翻译过来,Configuratio ...

  9. 运维平台之CMDB系统建设

    CMDB是运维的基础核心系统,所有的元数据和共享数据管理源,类似于业务中的账号平台的作用.本篇文章,我将从概念篇.模型篇.到实现与实施篇具体的进行阐述. CMDB也称配置管理,配置管理一直被认为是 I ...

  10. 数据库运维平台~Yearning测试与总结

    一 部署   1 docker-compose up -d 即可非常方便   2 mysql安装   3 inception安装二 默认账号   默认用户admin 密码: Yearning_admi ...

随机推荐

  1. Java/Kotlin Double保留小数点后几位

    下面以保留2位小数,且按照四舍五入规则的例子 方法 1.BigDecimal.setScale() 此方法得到的还是个double数值 double one = 5.864; BigDecimal t ...

  2. Linux 使用 selenium 环境配置

    1.需要安装 Chrome 浏览器 yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64 ...

  3. 三维模型3DTile格式轻量化在三维展示效果上的重要性分析

    三维模型3DTile格式轻量化在三维展示效果上的重要性分析 三维模型3DTile格式轻量化在三维展示效果上扮演着至关重要的角色.随着计算机图形学和虚拟现实技术的不断发展,我们已经可以创建和渲染非常精细 ...

  4. 用Vue3.0 写过组件吗?如果想实现一个 Modal你会怎么设计?

    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 一.组件设计 组件就是把图形.非图形的各种逻辑均抽象为一个统一的概念(组件)来实现开发的模式 现在有一个场景,点击新增与编辑都弹框出来进行 ...

  5. TCL基本语法2

    TCL基本语法2 1.format和scan 两个基本的函数,和C语言中的sprintf和scanf的作用基本相同.format将不同类型的数据压缩在字符串中,scan将字符串中的数据提取出来. se ...

  6. 前端ajax调用后端下载Excel模板流,解决输出乱码等问题

    JavaScript方法function importTemplate() { $.ajax({ url: "/importTemplate", type: "get&q ...

  7. AABO:自适应Anchor设置优化,性能榨取的最后一步 | ECCV 2020 Spotlight

    论文提出超参数优化方法AABO,该方法核心基于贝叶斯优化和Sub-Sample方法,能够自适应的搜索最优的anchor设置.从实验结果来看,AABO能够仅通过anchor设置优化,为SOTA目标检测方 ...

  8. [apue] 作为 daemon 启动, Unix Domain Socket 侦听失败?

    前段时间写一个传递文件句柄的小 demo,有 server 端.有 client 端,之间通过 Unix Domain Socket 通讯. 在普通模式下,双方可以正常建立连接,当server端作为d ...

  9. C++设计模式 - 桥模式(Bridge)

    单一职责模式: 在软件组件的设计中,如果责任划分的不清晰,使用继承得到的结果往往是随着需求的变化,子类急剧膨胀,同时充斥着重复代码,这时候的关键是划清责任. 典型模式 Decorator Bridge ...

  10. ET介绍——强大的基于.dotnet7+Unity3d的双端C#开源游戏框架

    ET是一个开源的游戏客户端(基于unity3d)服务端双端框架,服务端是使用C# .net core开发的分布式游戏服务端,其特点是开发效率高,性能强,双端共享逻辑代码,客户端服务端热更机制完善,同时 ...