Flashduty 案例分享 - 途游游戏
Flashduty 作为功能完备的事件OnCall中心,可以接入云上、云下不同监控系统,统一做告警降噪分派、认领升级、排班协同,已经得到众多先进企业的认可。我们采访了一些典型客户代表,了解他们的痛点、选型考虑和未来展望,集成本系列文章,以飨读者。
本次有幸在邹老板支持下访谈到途游资深运维工程师高工,聊一下“途游游戏”在 Flashduty 的实践经验。另外,也欢迎大家下载途游的游戏放松一下,哈哈。
除了途游,莉莉丝、悠星等游戏用户也是Flashduty的用户,场景大抵是类似的,废话不多说,让我们一起来揭开游戏公司 OnCall 的面纱。
1. 辛苦高工先简要介绍一下您所在的团队以及贵司的业务领域特点。
我们主要是游戏项目加平台服务,以非容器环境为主,部分平台类业务有使用K8s; 游戏项目大多是 go、python、java、c# 类后端,部署运行于虚拟机或者物理机上,通过运用开源的中间件、数据库构建起来游戏业务后端环境,整体资源以多云+机房IDC构成,部分项目资源使用云服务+虚拟机,部分为自建服务;整体监控场景和需求面涉及相对较为复杂。
2. 在使用 FlashDuty 之前,贵司是通过什么方式发告警的?主要痛点是什么?
我们一直是 Falcon、夜莺系 用户,之前没有 Flashduty 之前,我们通过自研的告警发送代理服务来对接 Falcon、夜莺 进行告警发送,最开始因为无任何收敛处理,有遇到 P0 电话告警把手机打爆只能关机的情况(抖动导致的大面积告警),也有把钉钉机器人发死的情况,短信发的无法正常接收短信,后来经过一些判断收敛处理,有一定的缓解,但自已改造的收敛逻辑仍是无法更高效的收敛,且处理逻辑相对较为复杂,同时也怕逻辑处理 BUG 掩盖掉正常的有效告警;还有一点是我们自己的告警发送服务没有值班机制,所有告警所有运维人接收,对短信、电话成本也是一种浪费,更为严重的问题是全组发送严重干扰大家的休息时间。
3. 贵司应该也用了多个监控系统吧,云上的、云下的,现在都对接了 Flashduty 么?效果如何?
现在我们夜莺 V6 通过对接 Flashduty,有效帮助我们落地监控 Oncall 值班机制,同时在告警收敛上,更为便捷有效;同时我们在云平台侧的云告警也对接到 Flashduty 后就也解决了告警无法有效触达以及无法值班处理的机制。
4. 在对接 Flashduty 过程中是否遇到一些问题呢?请问是如何解决的呢?
在对接 Flashduty 的过程倒是很顺利,使用较为便捷,只是告警模板上花了点时间进行定制修改,另外在 Flashduty平 台上的告警统计分析中,我们开始查看不太方便,后来通过告警事件的不同维度聚合(告警级别、告警标题等)展示更方便我们进行值班告警事件回顾闭环,使用起来很方便。
5. 您对 Flashduty 中哪几个功能设计最为认可?哪些功能切实解决了您的痛点?
- 多平台对接,把不同平台的告警统一一个地方进行告警发送、OnCall值班,开箱即用;
- 告警收敛效果很好,在默认收敛配置下降噪比平均在 80% 以上;
6. 对于未来有计划采用 Flashduty 的客户,您这边有什么实践经验分享么?
利用好值班功能及对应的升级,做好告警的责任分权,谁是第一负责人谁接收谁处理谁跟进,让用户自服务使用监控,运维做好指导培训;
小编注:途游的运维工程师在和研发工程师的协作过程中,扮演的是教练和 Platform 提供方的角色,这应该是一种典型的组织架构,让研发自助服务可以大幅提升人效,当然,前提是得有好 Platform 做支撑。
7. 这段时间下来,你使用 Flashduty 感受如何?对我们是否有一些建议?
当前很好用了,后面可以加一些智能的告警分析,比如哪些告警策略需要什么样的优化,在数据运营层面给我们做一些赋能。
另外目前其实已经能接入事件源,是否能把事件墙功能集成一下在 Flashduty 中,毕竟生产环境的故障 70% 都来自变更,如果能把变更事件统一化到一个地方呈现,对于故障定位是一个极大的助力。
小编注:这个功能其实已经提供了,可能高工不清楚,回头需要单独介绍一下这个功能啦,哈哈。
关于Flashduty
️ Flashduty 中心化告警处理,在正确的时间通知正确的人


每一分钟都很关键,降低故障时间,就是赚钱



️ 您常用的监控系统,我们都可以集成

告警事件的及时处理,对于线上稳定性保障至关重要。一款中心式的告警事件 OnCall 中心,去除告警风暴,确保告警不遗漏,还能分析故障处理的MTTA、MTTR等效率指标,先进的团队需要拥有,快来免费体验吧:https://flashcat.cloud/product/flashduty/
Flashduty 案例分享 - 途游游戏的更多相关文章
- JavaScript案例开发之扑克游戏
随着时代的发展,知识也在日益更新,但是基础知识永远不会过时,它是新时代的基石,更是我们进一步学习的保障,下面带着大家用JavaScript开发一款真正的扑克游戏,和大家一起分享,希望你们能够喜欢:闲话 ...
- ArcGIS Add-in插件开发从0到1及实际案例分享
同学做毕设,要求我帮着写个ArcGIS插件,实现功能为:遍历所有图斑,提取相邻图斑的公共边长及其他属性(包括相邻图斑的ID),链接到属性表中.搞定后在这里做个记录.本文分两大部分: ArcGIS插件开 ...
- Office 2010 KMS激活原理和案例分享
Office 2010 KMS激活原理和案例分享 为了减低部署盗版(可能包含恶意软件.病毒和其他安全风险)的可能性,Office 2010面向企业客户推出了新的批量激活方式:KMS和MAK.这 ...
- Office 2010 KMS激活原理和案例分享 - Your Office Solution Here - Site Home - TechNet Blogs
[作者:葛伟华.张玉工程师 , Office/Project支持团队, 微软亚太区全球技术支持中心 ] 为了减低部署盗版(可能包含恶意软件.病毒和其他安全风险)的可能性,Office 2010面向企 ...
- 老李案例分享:Weblogic性能优化案例
老李案例分享:Weblogic性能优化案例 POPTEST的测试技术交流qq群:450192312 网站应用首页大小在130K左右,在之前的测试过程中,其百用户并发的平均响应能力在6.5秒,性能优化后 ...
- 性能调优案例分享:Mysql的cpu过高
性能调优案例分享:Mysql的cpu过高 问题:一个系统,Mysql数据库,数据量变大之后.mysql的cpu占用率很高,一个测试端访问服务器时mysql的cpu占用率为15% ,6个测试端连服务 ...
- 老李案例分享:MAT分析应用程序服务出现内存溢出过程
老李案例分享:MAT分析应用程序服务出现内存溢出过程 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的loa ...
- 老李案例分享:定位JAVA内存溢出
老李案例分享:定位JAVA内存溢出 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的loadrunner的培 ...
- 性能调优案例分享:jvm crash的原因 1
性能调优案例分享:jvm crash的原因 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨询qq: ...
- [转载]DevOps在传统企业的落地实践及案例分享
内容来源:2017年6月10日,优维科技高级解决方案架构师黄星玲在“DevOps&SRE 超越传统运维之道”进行<DevOps在传统企业的落地实践及案例分享>演讲分享.IT 大咖说 ...
随机推荐
- 力扣59(java)-螺旋矩阵Ⅱ(中等)
题目: 给你一个正整数 n ,生成一个包含 1 到 n2 所有元素,且元素按顺时针顺序螺旋排列的 n x n 正方形矩阵 matrix . 输入:n = 3 输出:[[1,2,3],[8,9,4],[ ...
- iLogtail开源之路
简介: 2022年6月底,阿里云iLogtail代码完整开源,正式发布了完整功能的iLogtail社区版.iLogtail作为阿里云SLS官方标配的采集器,多年以来一直稳定服务阿里集团.蚂蚁集团以及众 ...
- 【全观测系列】Elasticsearch应用性能监控最佳实践
简介:本文介绍了应用性能监控的应用价值以及解决方案等. 1.什么是全观测? 要了解全观测,我们先看看传统运维存在哪些问题. 数据孤岛,分散在不同部门,分析排查故障困难: 多个厂商的多种工具,无法自动 ...
- DataWorks搬站方案:Airflow作业迁移至DataWorks
简介: DataWorks提供任务搬站功能,支持将开源调度引擎Oozie.Azkaban.Airflow的任务快速迁移至DataWorks.本文主要介绍如何将开源Airflow工作流调度引擎中的作业迁 ...
- 直播回顾:如何对付臭名昭著的 IO 夯?诊断利器来了 | 龙蜥技术
简介:听到IO夯总是让人头疼,那有没有可以分析IO夯问题的利器? 编者按:sysAK(system analyse kit),是龙蜥社区(OpenAnolis)系统运维 SIG 下面的一个开源项目, ...
- Oracle、达梦:生成32位字符串(ID)
15.生成32位字符串 达梦.oracle 函数:sys_guid().newid() 转小写LOWER(char) select rawtohex(sys_guid()); -- 推荐使用newid ...
- THUWC2024&NOIWC2024游记
以 NOIWC 考试日为 Day 1 好了. Day -6 到重庆了.去报到,然后直接不去试机走了,这波主打一个自信. Day -5 THUWC Day1,四道传统题. 开 T1,一眼有一个 \(O( ...
- 构造照亮世界——快速沃尔什变换 (FWT)
博客园 我的博客 快速沃尔什变换解决的卷积问题 快速沃尔什变换(FWT)是解决这样一类卷积问题: \[c_i=\sum_{i=j\odot k}a_jb_k \] 其中,\(\odot\) 是位运算的 ...
- ruby 常用代码片段
# 文件的当前目录 puts __FILE__ # string.rb # 文件的当前行 puts __LINE__ # 6 #文件的当前目录 puts __dir__ #/media/haima/3 ...
- Golang 版本 支付宝支付SDK app支付接口2.0
参考技术贴: https://blog.csdn.net/ming2316780/article/details/86505883 对接文档: https://opendocs.alipay.com/ ...