当前架构

某出行科技企业从单个公有云往多云转型,依托于国内领先的公有云提供商,采用多云架构,在可用性、弹性、成本、供应商依赖方面,拥有了显著的优势。

相应的,多云架构也给技术团队带来了一定的复杂度和技术挑战,最显著的就是如何高效的构建跨云的可观测性体系,提升故障发现、问题排查、性能分析等方面的能力。

跨云使用多个云监控工具,具体而言,存在以下痛点:

  1. 工具多,体验不一致,技术团队学习成本很高
  2. 仪表盘和告警策略的配置维护工作量大,需要在多平台重复配置
  3. 数据孤岛现象严重,关联分析成本高,效率低
  4. 需要为所有研发人员开通公有云控制台权限,管理维护成本高,存在信息安全隐患

特别的,当故障不可避免的发生时,最耗时的阶段是故障发现、故障定位环节。在当前的可观测平台现状下,技术团队需要登录两个云平台,挨个分别查看各个监控工具的数据,这大大增加了问题排查的复杂性和耗时。

从故障中早恢复1分钟,对用户带来的影响就会少一分,如何构建一个高效的故障发现和定位系统,也是可观测性平台建设的重中之重。

解决方案

Flashcat的目标是提供一个跨云统一的可观测性工具,使用 Flashcat,可以在一个平台上完成指标、日志、链路追踪数据的统一采集、可视化、告警、分析和OnCall,免去搭建和维护多套 Prometheus/Zabbix/Grafana/ELK/Jaeger/云监控的工作量,屏蔽多云监控的复杂度。

(一)落地效果:统一的监控平台

利用Flashcat的多数据源集成能力(包括Metrics源、Logging源、Tracing源、事件源四大类),通过对接数据源后,用户就可以在Flashcat平台上,对这些数据源背后的数据,进行集中的查询、可视化分析、告警等。

以上,用户只需要学习和使用Flashcat平台即可,不用再面对之前分散的多个工具,具体我们从以下四方面展开介绍:

多云统一的仪表盘

Flashcat仪表盘支持众多的图表,主要有时序图、表格、饼图、蜂窝图、排行榜、仪表盘等,并和Grafana兼容,本次落地过程中,把之前使用Grafana积累下来的面板,全部导入到了Flashcat中。此外Flashcat内置的仪表盘模板也非常多,其中包括公有云产品,例如阿里云ARMS、阿里云ECS、JVM等,快速的补齐了监控看板。

多数据源统一告警

针对接入的数据源,利用Flashcat多数据源统一告警功能,把腾讯云和阿里云的指标告警规则、日志告警规则统一维护到了Flashcat平台,降低了告警策略的配置维护工作量。

此外,当告警触发后,通过Webhook把告警发送到FlashDuty进行统一管理,包括聚合降噪、值班、分派、升级、触达等,大大改善了on-call效率,释放了工程师的人力。

以日志告警为例,当前业务告警严重依赖日志告警,所以在接入SLS-logstore、SLS-metricstore、CLS后,就可以在Flashcat平台上配置和管理这些日志告警规则了:

Flashcat的日志告警规则配置页面,支持多查询条件语法高亮、支持表达式模式、支持|| && 括号等运算方式,可以很好的满足多云平台的日志告警需求。

当告警触发之后,在Flashduty平台上跟进整个告警的全生命周期过程。不仅仅降低了告警的接收总量(压缩率在80%左右),减轻了告警对工程师工作的打断影响,也减少了因为告警漏处理或者未及时处理带来的工作失误。 

(二)落地效果:高效的故障发现定位体系

在阶段一,统一了多个云厂商不同的工具的可观测性数据。如何让这些数据发挥价值,是阶段二的落地重点。

参考Flashcat故障定位最佳实践,分别构建了北极星灭火图多维分析

北极星

指的是以核心业务视角,对业务健康指标进行实时的量化,进而发现“真”故障,并驱动起整个故障处理流程。所谓“真”故障就是指那些表示业务受损的指标,例如“乘客发单量”,“司机接单量”,“订单撮合率”,“在线司机数”等业务最关心的指标。通过定义、提取、实时检测这些北极星指标,技术团队就能第一时间发现业务受损的情况并及时介入,真正做到先于用户发现问题,先于业务发现问题。

最终构建起了适合出行业务特点的北极星指标体系,当这些北极星指标发生异常波动的时候,Flashcat的智能检测可以在1分钟内发出电话告警。 

灭火图

指的是以技术视角,实时量化并展示IT系统健康全景,快速收敛故障范围并确定故障源,引导用户通过不断下钻排查定位故障。在灭火图建设中,利用了Flashcat灭火图模板快速导入能力,对核心主流程上的每个模块和接口,都构建了对应的灭火图卡片。

总结

经过双方技术专家的共同努力,根据出行业务自身的特点和行业特性,结合快猫星云在多云统一监控方向的最佳实践,构建起了统一的监控平台高效的故障发现定位体系,最终为公司的多云架构的落地增强了关键一环。

关于快猫星云和夜莺

夜莺 (Nightingale) 是一款开源云原生监控工具,是中国计算机学会接受捐赠并托管的第一个开源项目,在GitHub上有8000颗星,有数千家企业用户使用。快猫星云以开源夜莺为内核打造的“Flashcat平台”,是国内顶级互联⽹公司可观测性实践的产品化落地,致力于让可观测性技术更好的落地和发挥价值。

近一年多来,快猫星云服务了零售、游戏、智驾等多个领域的标杆用户,助力企业快速构建了行业领先的统一可观测性平台,比如:金拱门、海底捞、吉野家、高济健康、益丰大药房 / 叮当快药、UU跑腿、阳光出行、哈啰出行、小马智行 / 莉莉丝游戏、悠星网络、途游游戏、盛大等。

Flashcat与出行科技企业一起实践多云可观测的更多相关文章

  1. 腾讯云“智能+互联网TechDay”:揭秘智慧出行核心技术与创新实践

    现如今,地面交通出行与大家的生活息息相关.在当前城市道路日益复杂和拥挤的情况下,如何保证交通出行的安全和便捷相信是每个人以及众多专家.科研工作者重点关注的问题. “智慧交通”系统是解决交通发展瓶颈的有 ...

  2. 【RPA之家转载】苏桦 华为RPA 企业财务实践:RPA与AI结合,实现百万级票据、合同处理自动化

    [RPA之家转载]苏桦 华为RPA 企业财务实践:RPA与AI结合,实现百万级票据.合同处理自动化 看到大会的主题,说每一位开发者都了不起,说白了我也非常的感触,因为我自己本身也是一个开发者,我从01 ...

  3. AI在出行场景的应用实践:路线规划、ETA、动态事件挖掘…

    ​前言:又到春招季!作为国民级出行服务平台,高德业务快速发展,大量校招/社招名额开放,欢迎大家投递简历,详情见文末.为帮助大家更了解高德技术,我们策划了#春招专栏#的系列文章,组织各业务团队的高年级同 ...

  4. 选择企业架构实践公开课的指导?TOGAF+ArchiMate+BangEA,EA工作者必学一门公开课

    我发现身边越来越多人谈数字化.谈企业架构,但是感觉谈的总是IT?知道好像不对,但是又好像也无法告诉别人这和传统的IT架构有什么不一样?网上找资料,看了很多也摸不到门路,也不知道别人讲的对不对.对了还好 ...

  5. IT科技企业逻辑思维面试题

    逻辑思维面试题 一.假设有一个池塘,里面有无穷多的水.现有2个空水壶,容积分别为5升和6升.问题是如何只用这2个水壶从池塘里取得3升的水.[请描述操作过程] 答:(1)先用容积为6升的水壶装满水: ( ...

  6. MySQL数据库从复制及企业配置实践

    在实际生产中,数据的重要性不言而喻: 如果我们的数据库只有一台服务器,那么很容易产生单点故障的问题,比如这台服务器访问压力过大而没有响应或者奔溃,那么服务就不可用了,再比如这台服务器的硬盘坏了,那么整 ...

  7. eBPF 实践 -- 网络可观测

    简介 观测云采集器,是一款开源.一体式的数据采集 Agent,它提供全平台操作系统支持,拥有全面数据采集能力,涵盖基础设施.指标.日志.应用性能.用户访问以及安全巡检等各种场景.通过 eBPF 技术的 ...

  8. springboot+logback日志输出企业实践(上)

    目录 1.引言 2.logback简介 3. springboot默认日志框架-logback 3.1 springboot示例工程搭建 3.2 日志输出与基本配置 3.2.1 日志默认输出 3.2. ...

  9. springboot+swagger接口文档企业实践(上)

    目录 1.引言 2.swagger简介 2.1 swagger 介绍 2.2 springfox.swagger与springboot 3. 使用springboot+swagger构建接口文档 3. ...

  10. 企业运维实践-还不会部署高可用的kubernetes集群?使用kubeadm方式安装高可用k8s集群v1.23.7

    关注「WeiyiGeek」公众号 设为「特别关注」每天带你玩转网络安全运维.应用开发.物联网IOT学习! 希望各位看友[关注.点赞.评论.收藏.投币],助力每一个梦想. 文章目录: 0x00 前言简述 ...

随机推荐

  1. 第 8章 Python 爬虫框架 Scrapy(下)

    第 8章 Python 爬虫框架 Scrapy(下) 8.1 Scrapy 对接 Selenium 有一种反爬虫策略就是通过 JS 动态加载数据,应对这种策略的两种方法如下:  分析 Ajax 请求 ...

  2. eBPF技术应用云原生网络实践系列之基于socket的service | 龙蜥技术

    ​简介:如何使用 socket eBPF进一步提升Service 网络的转发性能? ​ 背景介绍 Kubernetes 中的网络功能,主要包括 POD 网络,service 网络和网络策略组成.其中 ...

  3. KubeDL 加入 CNCF Sandbox,加速 AI 产业云原生化

    ​简介: 2021 年 6 月 23 日,云原生计算基金会(CNCF)宣布通过全球 TOC 投票接纳 KubeDL 成为 CNCF Sandbox 项目.KubeDL 是阿里开源的基于 Kuberne ...

  4. Java设计模式-策略模式-基于Spring实现

    1.策略模式 1.1.概述 策略模式是一种行为设计模式,它允许在运行时选择算法的行为.它将算法封装在独立的策略类中,使得它们可以相互替换,而不影响客户端代码.这种模式通过将算法的选择从客户端代码中分离 ...

  5. 【技术流吃瓜】python可视化大屏舆情分析“张天爱“事件微博评论

    目录 一.事件背景 二.微热点分析 二.自开发Python舆情分析 2.1 Python爬虫 2.2 可视化大屏 2.2.1 大标题 2.2.2 词云图 2.2.3 条形图 2.2.4 饼图(玫瑰图) ...

  6. 01、Windows 排查

    Windows 分析排查 分析排查是指对 Windows 系统中的文件.进程.系统信息.日志记录等进行检测,挖掘 Windows 系统中是否具有异常情况 1.开机启动项检查 一般情况下,各种木马.病毒 ...

  7. XTuner 微调 LLM实操-书生浦语大模型实战营第二期第4节作业

    这一作业中提及的解释比较少,更多的只是一些步骤截图.这是因为教程中已经提及了几乎所有的细节信息,没有什么需要补充的.这个页面相较于官方教程的部分解释得过于详细的内容甚至是有所删减的.比如关于文件路径可 ...

  8. WEB服务与NGINX(22)- nginx的七层负载均衡功能

    目录 1. NGINX实现负载均衡功能 1.1 nginx负载均衡概述 1.2 nginx实现http的负载均衡 1.2.1 nginx基于http负载均衡场景配置 1.2.1.1 负载均衡相关参数 ...

  9. 仿网易云音乐-微信小程序开发

    1.很多时候要找到完整的API接口很难,但网易云音乐的数据API是可以得到完整的. 安装API:https://github.com/Binaryify/NeteaseCloudMusicApi,只需 ...

  10. 海康威视web插件安装后,谷歌浏览器还是不能看视频问题

    首先要根据弹出的信息提示,下载并安装视频播放插件, 安装完成后重新打开谷歌浏览器,重新登录系统,如果还是不能看视频,请按下面的方法设置: 步骤1:谷歌浏览器,地址栏中输入:chrome://flags ...