新一代云原生可观测平台之CCE服务监控篇
本文分享自华为云社区《新一代云原生可观测平台之CCE服务监控篇》,作者: 云容器大未来。
在云原生容器化浪潮的当下,监控是确保业务稳定性最受关注的问题之一。那么,华为云CCE容器服务又是如何帮助用户提高运维效率呢?
半年来,CCE容器服务的运维团队持续拜访用户,并总结用户在云原生运维场景下的痛点问题,主要有以下三大痛点问题:
- 搭建云原生集群监控系统涉及的配置项多,包括集群自身的组件、资源的监控、业务组件的监控等,技术门槛较高。
- 云原生场景下的监控指标涵盖五大类,近数十万项,同时不同类型指标之间相互关联,传统监控难以将这些信息可视化。
- Promtheus已成为业界云原生监控的事实标准。但开源方案在商用场景下仍存在一些非功能性问题,尤其是海量监控指标带来的高资源消耗,导致成本显著增加。
图1 云原生运维的痛点问题
基于上述几个痛点,CCE联合AOM服务团队从开箱即用:一键启用容器监控能力、全景观测:多维度全场景监控视图、开源增强:兼容开源Promtheus,全方位能力提升等维度共同打造新一代云原生监控平台,为用户提供更加方便快捷的运维手段。
开箱即用:一键启用容器监控能力
为了方便用户快速触达监控中心,我们对开启监控中心的步骤进行了极致的简化,并将AOM服务上的监控信息整合到CCE的监控中心。现在,只需前往监控中心一键开启,即可在集群监控中心中查看容器基础资源、Kubernetes资源对象和Kubernetes服务组件的监控指标。
图2 创建集群时开通监控中心

图3 监控中心一键开通
全景观测:多维度全场景监控视图
CCE监控中心提供集群内涵盖基础资源、K8s资源对象、K8s服务组件、K8s集群Node、云原生上层业务等五大类,总计近数十万项指标的全景可观测能力,致力打造一站式运维的极致体验。
集群健康总览:监控中心首页会呈现整个集群中关键的控制面组件信息、资源占用最高的组件等,能让您对集群的健康情况一目了然。
图4 集群健康总览
资源健康总览:监控中心提供了节点、工作负载、POD等Kubernetes资源的独立监控页面。资源监控页面中提供资源的基本监控信息,并且能够纵览对应的资源概况,快速发现异常对象。
图5 资源健康总览
关联资源一屏可见:在监控中心中,在资源监控详情页中能看到关联资源的监控详情,并且可以方便的进行跳转查看(如在看节点监控时可以下钻至节点上的Pod,查看Pod的监控)。
图6 资源监控详情页
监控大盘:监控中心中提供了丰富的监控大盘,从集群、Node、控制组件等不同的视角呈现集群的健康状态。
图7 监控中心仪表盘
开源增强:兼容开源Promtheus,全方位能力提升
Prometheus是CNCF社区推荐的云原生监控方案,也是业界云原生监控的事实标准,它的服务发现、时序数据等能力能够很好地解决云原生场景下多变、海量数据的问题。同时,Prometheus也是用户使用最多的监控工具。
为了更好地符合用户的使用习惯,降低学习成本,CCE提供基于Prometheus开源生态能力的监控组件,兼容Prometheus的开源配置,同时在开源能力基础上对安全、性能、安装部署等方面做了商用增强。
在安全上,使用防护能力更强的华为自研的加密算法,对Prometheus使用的敏感信息进行加密;在性能上,一方面对监控指标进行分层管理,满足不同类型用户的监控诉求,另一方面,降低本地存储数据的时效,有效地降低了用户的资源消耗;在安装部署上,需要用户配置的参数由30+优化至0配置一键安装。
除此之外,针对Prometheus在海量数据下资源消耗巨大的问题,我们还提供了托管Prometheus+轻量化采集Agent的解决方案,用户侧仅需要负担轻量化采集Agent的资源即可支持海量指标监控,同时大大降低了用户的运维复杂度。
|
对比维度 |
开源Prometheus |
CCE监控套件 |
|---|---|---|
|
安全性 |
认证信息使用base64加密,安全防护弱 |
认证信息使用华为云自研算法加密,安全防护强 |
|
资源消耗 |
200节点消耗256G内存 |
200节点消耗8G内存 |
|
安装部署 |
需要准备30+的yaml部署文件 |
页面一键安装,无需配置 |
|
指标管理 |
指标管理需要后台找到对应的采集任务(CRD)进行配置 |
监控指标支持通过界面分层管理,基础指标默认启用,高级指标灵活配置(即将上线) |
我们非常期待本期带来的监控中心能力能够有效地提升您的运维体验,同时我们也会对监控中心进行持续的优化。期待您的使用以及宝贵的改进意见。
后续我们还会有其他运维特性的介绍,如告警中心,健康诊断、日志中心等,敬请期待。
服务体验请访问
相关链接
- https://support.huaweicloud.com/bulletin-cce/cce_bulletin_0066.html
- https://bbs.huaweicloud.com/blogs/413722
新一代云原生可观测平台之CCE服务监控篇的更多相关文章
- 使用 Iceberg on Kubernetes 打造新一代云原生数据湖
背景 大数据发展至今,按照 Google 2003年发布的<The Google File System>第一篇论文算起,已走过17个年头.可惜的是 Google 当时并没有开源其技术,& ...
- 一站式云原生在线研发平台 StarOS 种子用户邀请计划正式开启!
云时代的开发者,你好: 你是否也曾畅想过,关于云的未来? 不是作为消费者,也不是作为企业,是对于开发者而言,云会变成什么样. 同为开发者,我们常在想,我们开发了一个又一个应用,让太多人因服务在线而获益 ...
- 云原生交付加速!容器镜像服务企业版支持 Helm Chart
2018 年 6 月,Helm 正式加入了 CNCF 孵化项目:2018 年 8 月,据 CNCF 的调研表明,有百分之六十八的开发者选择了 Helm 作为其应用包装方案:2019 年 6 月,阿里云 ...
- Dubbo 迈出云原生重要一步 - 应用级服务发现解析
作者 | 刘军(陆龟) Apache Dubbo PMC 概述 社区版本 Dubbo 从 2.7.5 版本开始,新引入了一种基于实例(应用)粒度的服务发现机制,这是我们为 Dubbo 适配云原生基础 ...
- 云原生时代的DevOps平台设计之道
开发人员与运维人员是 IT 领域很重要的两大人群,他们都会参与到各种业务系统的建设过程中去.DevOps 是近年间火爆起来的一种新理念,这种理念被很多人错误的解读为"由开发人员(Dev)学习 ...
- 开放融合 | “引擎级”深度对接!POLARDB与SuperMap联合构建首个云原生时空平台
阿里巴巴新一代自研云数据库POLARDB与超图软件SuperMap GIS实现 “引擎级”深度对接,构建了自治.弹性.高可用的云原生时空数据管理平台联合解决方案,推出了业界首个“云原生数据库+云原生G ...
- 重大升级!灵雀云发布全栈云原生开放平台ACP 3.0
云原生技术的发展正在改变全球软件业的格局,随着云原生技术生态体系的日趋完善,灵雀云的云原生平台也进入了成熟阶段.近日,灵雀云发布重大产品升级,推出全栈云原生开放平台ACP 3.0.作为面向企业级用户的 ...
- 云原生PaaS平台通过插件整合SkyWalking,实现APM即插即用
一. 简介 SkyWalking 是一个开源可观察性平台,用于收集.分析.聚合和可视化来自服务和云原生基础设施的数据.支持分布式追踪.性能指标分析.应用和服务依赖分析等:它是一种现代 APM,专为云原 ...
- 如何建设私有云原生 Serverless 平台
随着云计算的普及,越来越多的企业开始将业务应用迁移到云上.然而,如何构建一套完整的云原生 Serverless 平台,依然是一个需要考虑的问题. Serverless的发展趋势 云计算行业从 IaaS ...
- 利用 Rainbond 云原生平台简化 Kubernetes 业务问题排查
Kubernetes 已经成为了云原生时代基础设施的事实标准,越来越多的应用系统在 Kubernetes 环境中运行.Kubernetes 已经依靠其强大的自动化运维能力解决了业务系统的大多数运行维护 ...
随机推荐
- 使用 QuickTime Player 将手机投屏到旧版 Macbook pro
由于旧版的 MacBook Pro 不支持 AirPlay,我们可以通过Mac系统自带的应用程序[QuickTime Player]来进行投屏操作. 以下是具体的步骤: 首先,使用USB数据线将你的 ...
- Vue之监听数据变化
1.轻度监视 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UT ...
- Nodejs环境打包前端项目
Node.js 在Linux下安装和环境搭建/编译项目 安装nodejs:1.下载nodejs源码包 wget https://nodejs.org/dist/v14.16.0/node-v14.16 ...
- LVS负载均衡概念+三种模式
1.LVS负载均衡概念剖解: 1)LVS技术全称:Linux virtual Server ,Linux虚拟机服务器集群,1998由章文嵩博士设计.并且开源的,是中国最早的开源软件项目之一. 2) ...
- 栈源代码(c++)
stack.h #ifndef STACK_H_ #define STACK_H_ #include<iostream> template<class T> struct No ...
- Shader学习笔记 (一) :利用shader在一个面绘制出圆
在各种游戏中,想必大家一定和我一样总是惊叹于游戏画面的各种炫酷的特效. 作为游戏开发中单独列出的一个职业TA(Technology Art),他们会利用GLSL或者HLSL等着色器语言绘制出一幅幅美丽 ...
- C语言,可爱的小明特别喜欢爬楼梯,他有的时候一次爬一个台阶,有的时候一次爬两个台阶,有的时候一次爬三个台阶。如果这个楼梯有n个台阶,小明一共有多少种爬法呢?n值从键盘输入。
/* 开发者:慢蜗牛 开发时间:2020.5.28 程序功能:小明爬楼梯 */ #include<stdio.h> int taijie(int n); long taijie(int n ...
- 七天.NET 8操作SQLite入门到实战 - 第三天SQLite快速入门
前言 今天我们花费一个小时快速了解SQLite数据类型.SQLite常用命令和语法. 七天.NET 8操作SQLite入门到实战详细教程 第一天 SQLite 简介 第二天 在 Windows 上配置 ...
- ABAP 泰国凭证批导 报错 F51 192 输入一个业务场景
泰国凭证批导报错 F51 192 输入一个业务场景 方案一: 方案二: ID_BUPLA 用户参数
- jmeter完成文件上传接口
前提:测试项目中有一个上传本地文件(excel)测被测接口. 测试工具:jmeter 协议:http 测试项目如下图: 第一步:点击模板上传,选择本地excel文件 第二步:上传成功,系统识别exce ...