背景

现状

  1. 某司概况:

    1. PaaS/SaaS 公司,业务面向全球,包括 东南亚/南亚/中东/欧洲/非洲/美洲/东亚...
    2. 生产 k8s 集群数十套,生产非生产 >100 套(多种集群类型,各种公有云/专有云/私有云/数据中心...)
    3. 疫情以来,持续推进成本优化。
  2. 某司监控概况,由于历史原因和出于成本考虑:
    1. 基于 原生 Prometheus 深度定制+自研部分 exporter/sd, 没用使用 kube-prometheus-stack(不兼容,成本会增加)
    2. 监控覆盖:k8s/pod/各类中间件/微服务/url...
    3. 每个集群一套 Prometheus 监控
    4. 监控所占用的计算存储等资源受限
    5. 监控部署方式:ansible 安装监控组件及后续使用 jenkins devops CI/CD 的自动发布

综上,监控可以称得上:

  1. 全球化的
  2. 大规模的
  3. 混合云的
  4. Kubernetes 的
  5. 低成本监控

问题

近期因监控覆盖不足(具体为某集群缺少了 url 监控部分的配置)导致告警漏报,对此进行了深入复盘,核心问题可归纳为两点:

  1. 缺乏唯一可信配置来源,各集群监控配置分散,存在版本不一致、规则遗漏等问题;
  2. 手动操作导致配置漂移,无法实时同步全球集群状态,故障预警能力受限。

为避免此类问题再次发生,规划改进如下:

采用 GitOps(Git 作为唯一事实来源)+ Prometheus Operator 为核心的标准化监控架构,具体方案如下:

一、问题根源与改进方向

  1. 当前挑战

    • 碎片化管理:全球数百套集群的 Prometheus 监控配置部分仍依赖人工维护,易出现规则遗漏、阈值不统一。
    • 手动管理风险:手动管理监控组件和监控配置和阈值,存在过期或误配置隐患(如近期故障)。
    • 监控数据噪音:因配置不一致,告警误报/漏报频发,影响故障响应效率。
  2. 目标方案

    • 唯一事实来源(Single Source of Truth):通过 Git 仓库统一管理所有监控配置(Prometheus 规则、ServiceMonitor、AlertManager 等),消除人工干预。
    • GitOps 自动化同步 (reconcile) 与自愈:利用 ArgoCD 等相关 GitOps 专业工具实现配置实时同步,确保集群状态与 Git 声明一致。
    • 集中式可观测性:通过 Prometheus Operator 标准化部署,如有必要,后续可以考虑结合 Thanos/Cortex/Mimir 实现跨集群监控数据聚合。

二、技术实现路径

  1. GitOps (Git 作为唯一事实来源) 的标准化流程

    • GitOps:将所有监控资源(Prometheus CRD、Grafana 仪表盘)存储在 Git 仓库,版本控制+Code Review 机制保障变更可追溯。
    • 自动化同步 (reconcile):通过 ArgoCD 等相关 GitOps 专业工具监听 Git 仓库变更,自动推送至各集群,避免人工误操作(这里参考了红帽 OpenShift GitOps 最佳实践)。
    • 紧急修复流程:任何生产变更必须通过 Git 提交,仅允许 Git 仓库作为修改入口,杜绝“临时补丁”。
  2. Prometheus Operator 强化能力
    • 统一部署模板:使用 Helm Chart 封装 Prometheus Stack(AlertManager、BlackBox 等),确保各集群版本与配置一致。
    • 动态服务发现:通过 ServiceMonitor 自动识别微服务端点,避免手动添加 Exporter 导致的遗漏。

三、预期收益

  1. 降低运维风险:配置漂移减少 90%以上,监控组件/阈值/配置实现全自动化管理。
  2. 提升故障响应:通过集中告警视图与标准化规则,MTTD(平均故障检测时间)缩短 50%。
  3. (待定)成本优化:避免重复开发监控组件,资源利用率提升 30%(通过 Prometheus 联邦集群优化数据存储,如 Thanos/Cortex/Mimir 等)。

四、后续计划

  1. 试点推进:计划先搭建一个临时环境,进行一段时间的 PoC 验证,输出标准化模板及自动化流水线。
  2. 全球推广
    1. 监控专用管理集群搭建。
    2. 分阶段迁移至 GitOps(Git 作为唯一事实来源) + Prometheus Operator 体系,考虑到规模较大,预计需要持续投入。
  3. 培训与协同:组织团队内部分享会,同步 GitOps(Git 作为唯一事实来源)+ Prometheus Operator 协作规范(分支策略、项目结构策略、Review 流程等)。

️ 参考文档

三人行, 必有我师; 知识共享, 天下为公. 本文由东风微鸣技术博客 EWhisper.cn 编写.

关于全球化大规模混合云 Kubernetes Prometheus 监控体系标准化及 GitOps 自动化改进方案的更多相关文章

  1. 如何优雅地使用云原生 Prometheus 监控集群

    作者陈凯烨,腾讯云前端开发工程师.负责 TKE 集群,弹性集群和云原生监控等模块控制台开发. 概述 Prometheus 是一套开源的系统监控报警框架.2016 年,Prometheus 正式加入 C ...

  2. 1021 docker prometheus监控体系

    jmeter plugin监控的信息很少,只有cpu.内存.网络IO,但这些是不够的.例如对于分析mysql数据库的慢查询.最大连接数等更加细密度的信息. 服务端稳定测试的三个前提: 1.应用级别的自 ...

  3. Prometheus 监控 Redis 集群的正确姿势

    Prometheus 监控Redis的正确姿势(redis集群) Prometheus 监控 Redis cluster,其实套路都是一样的,使用 exporter. exporter 负责采集指标, ...

  4. kubernetes之监控Operator部署Prometheus(三)

    第一章和第二章中我们配置Prometheus的成本非常高,而且也非常麻烦.但是我们要考虑Prometheus.AlertManager 这些组件服务本身的高可用的话,成本就更高了,当然我们也完全可以用 ...

  5. 如何用Prometheus监控十万container的Kubernetes集群

    概述 不久前,我们在文章<如何扩展单个Prometheus实现近万Kubernetes集群监控?>中详细介绍了TKE团队大规模Kubernetes联邦监控系统Kvass的演进过程,其中介绍 ...

  6. Kubernetes集群部署史上最详细(二)Prometheus监控Kubernetes集群

    使用Prometheus监控Kubernetes集群 监控方面Grafana采用YUM安装通过服务形式运行,部署在Master上,而Prometheus则通过POD运行,Grafana通过使用Prom ...

  7. prometheus(2)之对kubernetes的监控

    prometheus服务发现 1.基于endpoints的service注释服务自动发现. 2.基于pod注释的服务自动发现 3.基于consul注册的服务自动发现 4.手动配置服务发现 5.push ...

  8. kubernetes之监控Prometheus实战--prometheus介绍--获取监控(一)

    Prometheus介绍 Prometheus是一个最初在SoundCloud上构建的开源监控系统 .它现在是一个独立的开源项目,为了强调这一点,并说明项目的治理结构,Prometheus 于2016 ...

  9. Prometheus监控学习笔记之解读prometheus监控kubernetes的配置文件

    0x00 概述 Prometheus 是一个开源和社区驱动的监控&报警&时序数据库的项目.来源于谷歌BorgMon项目.现在最常见的Kubernetes容器管理系统中,通常会搭配Pro ...

  10. Kubernetes容器集群管理环境 - Prometheus监控篇

    一.Prometheus介绍之前已经详细介绍了Kubernetes集群部署篇,今天这里重点说下Kubernetes监控方案-Prometheus+Grafana.Prometheus(普罗米修斯)是一 ...

随机推荐

  1. TCA 复习

    HTML中预览PDF 手机端无法识别embed <embed src="***.pdf" id="review" style="width:11 ...

  2. Algernon pg walkthrough Window

    第一次打window 从简单的开始打起吧 nmap └─# nmap -p- -A 192.168.150.65 Starting Nmap 7.94SVN ( https://nmap.org ) ...

  3. 打造有效安全闭环,天翼云MDR来了!

    随着网络攻-防对抗形势愈演愈烈,传统的安全防护模式已难以应对频率暴增.昼夜不停的网络安全攻-击,提升组织安全防护能力势在必行.事实上,一些单位在网络安全建设工作中经验不足,在安全组件/设备采购方面大量 ...

  4. LeetCode 第1题:两数之和

    LeetCode 第1题:两数之和 题目描述 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标. 你可以 ...

  5. JMeter组件的执行顺序和作用域

    组件介绍 测试计划:jmeter的起点和容器 线程组:代表一定的虚拟用户 取样器:发送请求的最小单元 逻辑控制器:控制组件的执行顺序 前置处理器:在请求之前的操作 后置处理器:在请求之后的操作 断言: ...

  6. tar命令-大文件分卷压缩

    linux下最常用的打包程序就是tar了,使用tar程序打出来的包我们常称为tar包,tar包文件的命令通常都是以.tar结尾的.生成tar包后,就可以用其它的程序来进行压缩.用来压缩和解压文件.ta ...

  7. spring的事务管理有几种方式实现

    一.事务的4个特性:   原子性:一个事务中所有对数据库的操作是一个不可分割的操作序列,要么全做,要么全部做.   一致性:数据不会因为事务的执行而遭到破坏.   隔离性:一个事务的执行,不受其他事务 ...

  8. 在线客服的独立产品之路:如何将复杂的 .NET 系统打包到 Docker 镜像,使之能一键上线

    我在业余时间开发了一款自己的独立产品:升讯威在线客服与营销系统.陆陆续续开发了几年,从一开始的偶有用户尝试,到如今线上环境和私有化部署均有了越来越多的稳定用户,在这个过程中,我也积累了不少如何开发运营 ...

  9. FreeSql学习笔记——8.数据返回类型

    前言   FreeSql数据返回格式比较丰富,包括单条.列表.导航属性数据.指定字段.Dto等:可以有效的减少代码量,减少字段复制等操作:   前面的查询已经用到了日常基本需要用到的数据格式,本篇是常 ...

  10. 数据团队必读:智能数据分析文档(DataV Note)五种高效工作模式

    数据项目,无论是数据分析.可视化,还是数据科学和机器学习相关的项目,通常都非常复杂,涉及多个组成部分,比如代码.数据.运行环境.SQL脚本以及分析报告等:与此同时,随着AI时代的到来,数据科学领域正经 ...