原文地址:https://databuff.com/resourceDetail/blog103

摘要:

2025年7月23日,由中国通信标准化协会主办的 “2025可信云大会” 在京举行,《运维智能体(SRE AGENT)能力要求》标准正式发布,杭州乘云数字作为运维智能体及可观测领域领导者,重点参与了本次报告的编写。

2025年12月23日,由中国通信标准化协会主办、中国信通院承办的 “2025可信云大会-软件工程智能化分论坛” 在北京中关村国家自主创新示范区会议中心举行,《运维智能体(SRE AGENT)能力要求》正式发布。杭州乘云数字作为可观测性领域领导者,重点参与了本次报告的编写。该标准参与编写单位包括:中国信息通信研究院、移动云、华为云、蚂蚁、农业银行、杭州乘云数字、小米、神州灵云、农商银行、中电普华、百度、恒为科技、福建移动、宜通衡睿、银信、长三角数链。本标准文件由云计算开源产业联盟提出并归口。

报告介绍

随着AI技术、运维自动化能力的不断发展,基于智能体的运维能力作为一种高效、自主的新型运维工具,能够实现更智能的资源调度、自动化运维和精准的故障预测,从而降低运营成本并提高系统稳定性。

本标准规范了在开展运维智能体建设或度量时,如何指导运维场景应用、协同能力构建、智能体能力建设和基智能体底座建设。

本标准同时适用于服务商提供的运维智能体服务和运维智能体软件产品,即面向公共用户提供的运维智能体服务和私有环境下的软件产品或解决方案;依据交付形式的差异,本标准针对不同的使用场景其技术指标要求略有不同。

图1 运维智能体(SRE Agent)技术分级能力要求框架图

该架构以​场景需求为牵引​​,通过协同层打通系统壁垒,以智能体层的感知-决策-行动闭环为核心能力载体,最终由底座提供工程化支撑。四层能力环环相扣,既明确了技术能力边界,又强调实际落地场景的适配性,为企业构建智能运维体系提供清晰的模块化建设路径。

1. 运维场景层(顶层)​

覆盖智能体服务的核心业务场景,包含:
​流程管理​​:自动化运维流程执行
​变更管理​​:系统变更的智能化控制
​故障管理​​:异常检测、根因定位与自愈
​风险管理​​:预判性监控与容错控制
​运维管理​​:资源调度与配置优化
_定位:直接对接企业实际运维需求,定义智能体价值出口。_

2. 协同能力层(承上启下)​

支撑智能体在复杂环境中的协作能力:
​多智能体协同​​:集群任务分配与联动作业
​跨系统协同​​:对接CMDB、监控系统等第三方平台
​智能体安全​​:数据加密、权限控制与行为审计
_定位:破除系统孤岛,确保人-机-系统安全交互。_

3. 智能体层(核心技术层,横向三模块)​

⦿ ​感知能力​​:
  - ​运维数据​​(指标/日志/链路)
  - ​环境数据​​(硬件状态/网络拓扑)
  - ​交互数据​​(用户指令/反馈)
  _(注:多源数据融合感知)_
⦿ ​控制能力​​:
  - ​信息理解​​:数据语义解析与特征提取
  - ​记忆能力​​:知识图谱构建与经验存储
  - ​计划能力​​:任务拆解与决策路径生成
⦿ ​行动能力​​:
  - 自动执行修复、扩缩容等物理操作
  - 支持工单生成、告警通知等人机协同

4. 智能体底座(基础设施)​

 ​模型接入​​:兼容AI大模型与专业算法引擎
​软件质量​​:高可用架构与性能保障
​自维护​​:智能体自监控、自升级与故障隔离

作为​国内首个聚焦SRE Agent的专项能力标准​​,该报告具有三大核心价值:

  1. 统一规则:​ 为产品开发与评估提供清晰依据,规范市场秩序。

  2. 赋能企业:​ 指导企业高效选型和建设SRE Agent能力,提升运维智能化水平。

  3. 引领发展:​ 树立行业技术标杆,加速智能运维技术成熟与应用创新。

篇章预览

故障定位

描述:故障定位是指故障发生以后能够采取多种手段找到问题原因。一般故障定位能力分为现象定位、对象定位、原因定位三种。智能体应该与企业当前故障定位能力结合,在故障处理过程中通过大模型能力快速判断、整合,从而提升故障定位效率。


1级:
a) 应具备故障现象定位能力,通过现象关联分析,实现故障初步定位及影响范围识别。


2级:
a) 智能体应具备故障对象定位能力。以及部分故障原因定位能力。
b) 智能体应具备结合多源数据进行多维度根因分析的能力。


3级:
a) 智能体应具备精准分析故障原因与趋势,输出处置预测报告的能力

乘云数字运维智能体介绍

乘云数字,作为数字化可观测性领域的领军企业,持续专注于可观测性、现代AIOps、数字化经营等先进产品与技术的研究与应用,深入自主研发,聚焦解决国内企业全面上云带来的数字化运维、数字化经营的全新挑战。

凭借在领域的技术创新与行业领跑实力,乘云数字被评选为 “国家高新技术企业”、“浙江省专精特新企业”、“浙江省科技型企业”,并连续获得多轮融资。

乘云数字运维智能体引擎,结合预测性、因果关系和生成式 AI,能够实现分钟级的根因定位,利用大模型生成精准的处建建议,并可在问题对客户造成影响之前进行预测。

**预测AI: ** 融合机器学习与多模态数据分析,实时处理指标、日志、追踪等运维数据,构建动态基线,提前预警潜在故障(如资源瓶颈、性能衰退),并定位根因、提供修复建议。通过仿真推演与智能决策,优化资源规划与发布策略,降低故障率,推动运维从“被动响应”迈向“主动预防”的价值驱动模式。

**因果AI: ** 分析指标、日志、追踪等数据间的因果关系,精准定位故障根因(如配置错误、依赖故障),区分直接与间接诱因,减少误报。通过回溯故障传播路径、量化影响并推荐修复方案,助力运维从“经验猜测”转向“因果可解释”的精准决策,提升故障处理效率与系统稳定性。

生成式AI: 结合大语言模型(LLM)与知识图谱,实现基于自然语言的查询分析、报告生成、数据可视化等能力。通过沉淀历史经验和专家知识,推动运维自动化与知识高效复用,提升故障处理与系统优化效率。

具体实现效果可参考阅读以下内容:

https://mp.weixin.qq.com/s/JLcyegXfVWMpZwEz9s-vtg

发布!乘云数字参编中国信通院《运维智能体(SRE AGENT)能力要求》正式发布的更多相关文章

  1. 腾讯云联合中国信通院&作业帮等首发《降本之源-云原生成本管理白皮书》

    在11月4日举办的2021腾讯数字生态大会云原生专场上,腾讯云联合中国信通院.作业帮等率先在国内重磅发布了<降本之源-云原生成本管理白皮书>(简称白皮书),基于腾讯云在业内最大规模的 Ku ...

  2. CentOSLinux系统中Ansible自动化运维的安装以及利用Ansible部署JDK和Hadoop

    Ansible 安装和配置 Ansible 说明 Ansible 官网:https://www.ansible.com/ Ansible 官网 Github:https://github.com/an ...

  3. 七年老运维实战中的 Shell 开发经验总结【转】

    无论是系统运维,还是应用运维,均可分为“纯手工”—> “脚本化”—> “自动化”—>“智能化”几个阶段,其中自动化阶段,主要是将一些重复性人工操作和运维经验封装为程序或脚本,一方面避 ...

  4. 真正云原生的智能运维体系,阿里云发布ECS自动化运维套件

    云计算的发展,推动了自动化运维.DevOps.AIOps 等趋势的兴起,在业务快速变化的今天,企业希望通过一套自动化运维的专家系统提高运维效率,为业务提供支撑. 传统的方式下,打造一套成熟的 DevO ...

  5. 基于Jira的运维发布平台的设计与实现

    作者:乔克 公众号:运维开发故事 上线发布是运维的日常工作,常见的发布方式有: 手动发布 Jenkins发布平台 Gitlab CI ...... 除此之外还有需要开源软件,他们都有非常不错的发布管理 ...

  6. 阿里云发布CloudOps白皮书,ECS自动化运维套件新升级

    12月10 日,2021云上架构与运维峰会上,阿里云发布业界首部<云上自动化运维白皮书>(简称CloudOps白皮书),并在其中提出了CloudOps成熟度模型.同时,阿里云还宣布了ECS ...

  7. 3.发布Maven项目到nexus中

    1.在pom.xml文件中配置需要发布的工厂 如果想把项目发布到nexus中,需要在pom.xml中配置releases和snapshots版本发布的具体repository <distribu ...

  8. 【C语言】输入一组整数,求出这组数字子序列和中最大值

    //输入一组整数.求出这组数字子序列和中最大值 #include <stdio.h> int MAxSum(int arr[],int len) { int maxsum = 0; int ...

  9. 如何将Azure DevOps中的代码发布到Azure App Service中

    标题:如何将Azure DevOps中的代码发布到Azure App Service中 作者:Lamond Lu 背景 最近做了几个项目一直在用Azure DevOps和Azure App Servi ...

  10. 发布时一键添加html中的css标签和script标签版本号来防止浏览器缓存

    AppendFileVersion 是一个VSIX插件支持vs2015意以上版本 是我用来发布时一键添加html中的css标签和script标签版本号来防止浏览器缓存 分享给大家! download ...

随机推荐

  1. Hive自定义函数(UDF)开发和应用流程.18981521

    目录 引言 一.Hive自定义函数的类型 二.准备环境和工具 三.实际案例开发编译 四.前方有坑请注意 五.总结 引言      Hive作为大数据领域的核心计算引擎,凭借其强大的SQL支持和丰富的内 ...

  2. BIgdataAIML-IBM-A neural networks deep dive - An introduction to neural networks and their programming

    https://developer.ibm.com/articles/cc-cognitive-neural-networks-deep-dive/ By M. Tim Jones, Publishe ...

  3. Win11电脑设置系统还原点的问题

    有雨林木风官网用户,问小编在原版win11系统里面怎么设置系统还原点?先来说说,在Windows11系统中的系统还原点功能,只要系统有什么问题,我们可以还原这个备份的还原点,就不用重新安装一些常用的软 ...

  4. Win11系统中如何连接打印机的问题

    说到打印机是很多电脑基地用户在办公时都经常需要使用的设备,而且现在很多家庭里面有小孩上学以后都需要打印机来打印作业,但是普通的打印机需要和电脑连接才能使用.很多小伙伴升级win11系统之后,就不知道该 ...

  5. Unity接入 KimiChat 代码示例

    代码 using System.Runtime.CompilerServices; using System.Threading.Tasks; using UnityEngine; using Uni ...

  6. 一款超级经典复古的 Windows 9x 主题风格 Avalonia UI 控件库,满满的回忆杀!

    前言 今天大姚给大家分享一款超级经典复古的 Windows 9x 主题风格 Avalonia UI 控件库,满满的回忆杀:Classic.Avalonia. 项目介绍 Classic.Avalonia ...

  7. 理解文件句柄数(File Handle Count)

    在 Linux 系统中,​​文件句柄数(File Handle Count)​​ 是一个核心概念,用于描述操作系统管理 ​​打开文件​​ 和 ​​I/O 资源​​ 的能力.以下是详细解释: 1. ​​ ...

  8. Dubbo简介及其与ZooKeeper的关系

    Dubbo简介及其与ZooKeeper的关系 原创 图南 图南随笔 2019-09-21 | Dubbo与ZooKeeper系列文章 ZooKeeper简介及安装 ZooKeeper CLI 详解 D ...

  9. 文献精读:气候变化、CO2浓度提高和土地利用变化对全球陆地蒸散发的影响分析

    阅读文献是Liu(2021)发表的<Response of global land evapotranspiration to climate change, elevated CO2, and ...

  10. CentOS 下使用 Docker 快速搭建 LNMP 环境

    一.安装 Docker 更新 yum 包 yum -y update 卸载旧版本(如果之前安装过的话) yum remove docker docker-common docker-selinux d ...