SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台
简介: SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台
1.目标定位
1.1背景
- 告警管控平台种类繁多
- 告警出现后未及时发现处理最终导致故障产生
- 专有云监控能力拉起依赖版本升级,操作复杂,迭代慢
- 异常问题和故障的感知力不如客户
1.2目标
- 制定告警数据接入规范
- 实现告警统一集中展示
- 建设多种告警外发通知
- 独立部署、快速迭代
- 告警严重程度区分,提升感知力
1.3定位
2.平台简介
2.1介绍
SRE技术保障平台-盯屏中心(TAC-TAM Alarm Center)是TAM为混合云精心打造的一站式告警运维平台,覆盖混合云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助混合云平台快速发现、定位异常问题,协助产品团队促进产品改进。
2.2特点
2.2.1告警汇聚
- 默认集成:云平台、大数据、云实例、站点应用
- 支持扩展:自定义监控
2.2.2报警通道
- 钉钉&本地化钉钉
- 短信服务
- 企业邮箱
- 警务微信
2.3业务服务流程
3.主要功能及界面展示
3.1告警盯屏中心
- 实时展示云平台当前所有的告警数据以及列出近7天的产品告警TOP排行, 一目了然告警数据, 提升感知力。
3.2SRE运维大盘
- 通过指标化,更方便查看产品的健康状况,判断是否有故障;
- 指标项包含:健康率、成功率、转实例、准时率、正常率、运行率、使用率、写成功率、读成功率。
3.3告警工作台
- 用户可以在平台告警页面上认领新增的待处理告警,线下处理完成后可以在我的告警页面上关闭该告警。
- 当认领了自己不擅长处理的产品告警,可以通过线上转发的方式移交给擅长处理的同学。
- 若出现长期无法处理的告警,在确认无影响的情况下可以选择忽略该告警,避免一直外发造成消息轰炸。
- 自动恢复的告警无需手动认领关闭,在历史告警中可以进行查看。
3.4事件服务中心
打破签字、短信、邮件式古老的运维管理方式,为客户将众多的线下流程移⾄线上,预设相应的管理体系,以线上提交、线上反馈的模式,可以统一管理、追踪闭环、数据存档,为⽇常流程管理工作提供更多解决⽅法,逐步代替线下管理。
3.5告警控制策略
- 支持设置自动分派策略,当指定产品出现告警自动认领告警;
- 当天首次出现的告警立即通知,非首次出现的告警遵循1440分钟的静默期后通知;
- 支持控制告警发送时的状态,“发生时”、“认领时”、“关闭时”;
- 支持预约在指定的时间范围内使某一类型的告警进入静默期,告警外发暂时失效;
- 支持对告警推送的告警类型,产品,级别,部门,项目等进行自定义配置。
3.6告警推送策略
- 提供用户体系,系统会识别用户的手机号码以及邮箱地址来发送告警;
- 提供钉钉、短信、邮件的外发的webhook,api接口的配置;
- 可以选择的一个或多个告警策略自定义配置推送告警
3.7监控网关
- 支持在监控任务页面配置用户关心的网站、机器或某个接口,TAC根据规则进行监控;
- 若现场之前有提供过黑屏化的监控工具,用户可以在注册API页面注册一个APP,根据接口调用规范将监控结果上报至TAC以第三方告警来展示和外发。
3.8钉钉通知
4.结语
目前,混合云多数项目已通过TAC实现告警通知功能。有效提高告警处理效率,减少因告警未及时处理导致故障的情况,大幅提高项目运维质量,减少项目人力投入成本。
作者:黄家亮 阿里云智能GTS-SRE团队资深技术支持工程师
本文为阿里云原创内容,未经允许不得转载
SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台的更多相关文章
- 《开源安全运维平台OSSIM最佳实践》
<开源安全运维平台OSSIM最佳实践> 经多年潜心研究开源技术,历时三年创作的<开源安全运维平台OSSIM最佳实践>一书即将出版.该书用80多万字记录了,作者10多年的IT行业 ...
- 《开源安全运维平台:OSSIM最佳实践》内容简介
<开源安全运维平台:OSSIM最佳实践 > 李晨光 著 清华大学出版社出版 内 容 简 介在传统的异构网络环境中,运维人员往往利用各种复杂的监管工具来管理网络,由于缺乏一种集成安全运维平台 ...
- sso 自动化运维平台
单点登录SSO(Single Sign-On)是身份管理中的一部分.本文中作者开发了一个自动化运维平台中的统一认证接口,单点登录平台通过提供统一的认证平台,实现单点登录.因此,应用系统并不需要开发用户 ...
- #研发解决方案#iDB-数据库自动化运维平台
郑昀 创建于2015/12/2 最后更新于2015/12/2 关键词:数据库,MySQL,自动化运维,AutoDDL,刷库,帐号授权,审核,回滚 提纲: 数据库自动化运维什么?别人家是怎么玩的? 我们 ...
- saltstack---自动化运维平台
https://github.com/ixrjog/adminset[自动化运维平台:CMDB.CD.DevOps.资产管理.任务编排.持续交付.系统监控.运维管理.配置管理 ] https://ww ...
- 运维平台cmdb开发-day1
序读项目由来 终极目标,运维平台.自动化.装机,监控,安装软件,部署基础服务,资产管理,之前是excel,现在是客户端自动获取,变更记录 后台管理 api 采集资产 四种模式agent 定时,每天执行 ...
- CentOS 7.5 部署蓝鲸运维平台
环境准备 官方建议 准备至少3台 CentOS 7 以上操作系统的机器 最低配置:2核4G 建议配置: 4核12G 以上 部署前关闭待安装主机之间防火墙,保证蓝鲸主机之间通信无碍 部署前关闭SELin ...
- 【I·M·U_Ops】------Ⅱ------ IMU自动化运维平台之CMDB
说明本脚本仅作为学习使用,请勿用于任何商业用途.本文为原创,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接和本声明. #A 我理解的 CMDB CMDB翻译过来,Configuratio ...
- 运维平台之CMDB系统建设
CMDB是运维的基础核心系统,所有的元数据和共享数据管理源,类似于业务中的账号平台的作用.本篇文章,我将从概念篇.模型篇.到实现与实施篇具体的进行阐述. CMDB也称配置管理,配置管理一直被认为是 I ...
- 数据库运维平台~Yearning测试与总结
一 部署 1 docker-compose up -d 即可非常方便 2 mysql安装 3 inception安装二 默认账号 默认用户admin 密码: Yearning_admi ...
随机推荐
- 译:使用现代的 Node.js 构建简单的CLI工具
原文地址: https://evertpot.com/node-changelog-cli-tool/ 作者: Evert Pot 发布时间:2023-02-13 只使用 Node.js 的标准库,不 ...
- App启动页面优化
目录介绍 01.存在白屏问题 1.1 问题描述 1.2 问题分析 02.解决白屏的办法 2.1 解决方案分析 2.2 第一种解决方案 2.3 第二种解决方案 2.4 注意要点 03.Applicati ...
- npm create vue@latest 执行过程
1. 引言 目前(2024年3月13日),打开Vue的官网,可以发现其推荐新建一个Vue项目的命令是npm create vue@latest,为啥这句命令就可以创建一个Vue项目呢 2. 执行过程 ...
- uni-app开发经验分享二十二: uni-app大转盘思路解析
最近在研究uni-app,制作了一个很有意思的集合项目demo,这里给大家分享下大转盘的前端设计思路 需求案例:大转盘抽奖 线上demo查看: 案例效果: 制作思路: 前端大转盘使用css3动画来做, ...
- 动态水印也能去除?ProPainter一键视频抠图整合包下载
ProPainter是一个基于E2FGVI实现的AI视频编辑工具,它结合了增强的传播和Transformer机制,能够快速高效地进行视频修复和水印去除 功能特点 · 对象移除:智能地检测和移除视频中的 ...
- KingbaseESV8R6全局临时表不能进行reindex操作
背景 我们经常遇到两种情况下会重建索引,reindex 1.索引崩溃,由于软件或硬件问题导致索引内数据失效而不可用. 2.索引膨胀,当索引膨胀会占用过多磁盘空间,reindex可以解决此问题. 对于临 ...
- 【已解决】Windows环境下redis启动失败
在redis安装目录下打开cmd窗口: 依次输入: redis-cli.exe shutdown exit redis-server.exe redis.windows.conf ps:启动失败可能是 ...
- C#的无边框窗体改变大小解决方案 - 开源研究系列文章
这次继续研究无边框窗体需要的功能.其实就是把有边框的默认窗体的一些功能进行实现而已.不过不同的人不一定相同的代码,所以笔者尽量用最简单有效的方法例子让读者能够直接对代码进行复用,以节省时间和人力.这次 ...
- Numpy线性计算
Numpy内置方法以及numpy.linalg模块可实现矩阵乘法.矩阵分解.矩阵行列式等线性代数的计算. In [1]: import numpy as np In [2]: x = np.arang ...
- openGauss 2.1.0 闪回特性
openGauss 2.1.0 闪回特性 openGauss 2.1.0 于 2021 年 9 月 30 日发布,是 openGauss 的一个 Preview 版本,该版本生命周期仅为半年.该版本的 ...