自 ChatGPT 横空出世之后,AIGC 已成为不可逆转的时代浪潮。在之前的文章中,我们介绍了DevOps 领域中AI的用例,需要回顾可以点击下方链接。在本篇文章中,我将简单聊聊人工智能(AI)如何通过分析日志和指标来预测潜在的系统故障或性能下降,从而实现主动维护和问题解决。

持续监控和可观测性用例

CI 异常检测:人工智能可以分析历史数据,检测持续集成阶段的异常情况。在进入下一阶段之前,任何异常变更都会被标记为审查对象。像 IBM Watson Anomaly Detection 这样的工具可以通过使用人工智能来检测模式和异常,从而帮助识别这些异常。

代码质量保证:在开发阶段可以使用人工智能来分析代码以确保其质量,有助于减少错误和漏洞。DeepCode 和 Codota 等工具会使用 AI 来识别潜在问题,并根据学习的代码和解决方案数据库提出改进建议。

测试用例优化: AI 可以帮助优化持续集成(CI)中测试用例的选择。利用历史测试数据,人工智能可以确定哪些测试用例最有可能发现新缺陷。Testim.io 等工具可以根据风险和变更影响使用人工智能来确定测试的优先级,从而帮助实现这一目标。

CD 中的预测分析:AI 可以分析历史部署数据并预测持续交付 (CD) 期间的潜在问题。这可以帮助先发制人地解决问题,减少停机时间。Splunk 等工具使用人工智能和机器学习来为运营数据提供预测分析。

自动回滚:在持续部署的情况下,AI 可用于自动回滚导致问题的部署。Harness 等工具使用机器学习来了解典型的应用程序行为,如果检测到异常,则会自动恢复到最后的稳定状态。

基础设施优化: AI 可帮助优化云环境中的资源使用。CAST.AI 和 Turbonomic 等工具可以利用人工智能持续优化基础架构,确保在降低成本的同时提高性能。

事件管理:AI 帮助实现从检测到解决的事件管理流程自动化。BigPanda 和 Moogsoft AIOps 等工具使用人工智能来汇总、关联和分析来自不同来源的警报,从而减少噪音并加快事件解决速度。

日志分析:人工智能可以分析日志,找出人类难以发现的模式。Logz.io 等工具利用人工智能对日志数据进行认知洞察,从而提供对数据的更深入理解。

安全威胁检测:人工智能可以分析模式,更有效地检测安全威胁。Darktrace 等工具利用机器学习来实时检测异常行为,从而在潜在威胁造成破坏之前将其检测出来。

网络监控:人工智能可以通过分析流量模式预测网络中断。Kentik 等工具利用人工智能在影响用户之前主动识别潜在的网络问题。

将持续监控转变为使用人工智能时的挑战

以下是企业在过渡现有 CI/CD 流水线以将人工智能纳入持续监控和可观察性时可能面临的一些挑战,以及可能的解决方案:

数据质量和可用性:人工智能工程工具的有效性在很大程度上取决于所提供数据的质量和数量。数据不足或质量不佳会导致洞察力或预测不准确。实施有效的数据治理和管理实践可确保数据的质量和可访问性。数据应彻底清理并适当标注,以方便人工智能模型的训练。

技术差距:采用人工智能工程工具需要现有 IT 团队可能不具备的新技能。他们可能不了解如何有效地使用这些工具。为您的 DevOps 团队提供全面培训,弥补技术差距,还可以考虑聘请 AI 专家或与经验丰富的供应商合作,帮助实施和管理人工智能工具。

变革阻力:与任何重大转型一样,变革阻力也可能是一个巨大障碍。员工可能会担心工作保障或认为难以适应新工具。无论是在组织层面还是个人层面,都要清晰透明地宣传人工智能转型的好处。确保员工认识到,人工智能是用来帮助他们的,而不是取代他们。组织研讨会和培训课程,帮助员工轻松过渡。

与现有系统集成:人工智能工具需要与现有的 DevOps 工具和工作流程无缝集成,以确保在不影响运营的情况下增加价值。选择与现有基础设施兼容的人工智能工具,或考虑实施集成中间件。进行概念验证(PoC),确保新的人工智能工具顺利集成。

实施成本:部署人工智能工具可能需要大量的前期投资,包括工具本身和必要的基础设施升级。进行全面的成本效益分析,以了解人工智能工具所能带来的投资回报(ROI)。考虑从低成本或开源工具开始,或使用基于云的人工智能服务,以减少对基础设施的初始投资。

总 结

随着 DevOps 世界的发展,人工智能在监控和可观测性方面的整合变得越来越重要。无论是在持续集成、持续交付或持续部署阶段,还是在应用程序、基础设施和流水线阶段,人工智能都能带来非凡的效益。从 CI 中的异常检测、代码质量保证和测试用例优化到 CD 中的预测分析,人工智能可以改变您的运维,提供更快速、更可靠的结果。

然而,向人工智能优化的 DevOps 环境过渡并非没有挑战。必须考虑并解决数据质量、技能差距、变革阻力、系统集成和成本影响等问题。但不用担心,解决方案就在眼前。通过有效的数据治理、全面的培训、透明的沟通、明智的工具选择和彻底的成本效益分析,您可以应对这些挑战,并在 DevOps 之旅中收获人工智能带来的回报。准备好迎接 AI 驱动的 DevOps 的未来了吗?现在就开始探索各种可能吧。

参考链接:

https://devops.com/how-ai-addresses-devops-monitoring-and-observability-challenges/

人工智能如何应对 DevOps 监控和可观测性挑战的更多相关文章

  1. DevOps专题 |监控,可观测性与数据存储

    对于DevOps而言,监控是其中重要的一环,上一次的专题内容中,我们与大家分享了大型企业级监控系统的设计.今天我们将和大家从另一个角度进一步探讨互联网工程技术领域的监控设计(monitoring):系 ...

  2. DevOps - 监控告警 - Zabbix

    官网3.4版本中文文档 Zabbix documentation in Chinese [Zabbix Documentation 3.4] https://www.zabbix.com/docume ...

  3. 一图看懂华为云DevCloud如何应对敏捷开发的测试挑战

    作为敏捷开发中测试团队的一员,在微服务测试过程中,你是不是也遇到同样困惑:服务不具备独立验证能力.自动化用例开发效率很低等? 华为云DevCloud API全场景测试技术来支招~围绕API的全场景,打 ...

  4. 人工智能是如何改变IT运维和DevOps的?

    要解决IT运维和DevOps团队面对的挑战,就是能够在大量的日志数据流中识别潜在的小的有害问题,这正是认知洞察力所做的事情. 接下来的几年里,DevOps(开发软件工程.技术运营和质量保障三者的交集) ...

  5. DevOps是云计算时代的开发与运营

    DevOps(英文Development和Operations的组合)是一组过程.方法与系统的统称,用于促进开发(应用程序/软件工程).技术运营和质量保障(QA)部门之间的沟通.协作与整合.[1] 它 ...

  6. DevOps,你真的了解吗?

    与大数据和PRISM(NSA的监控项目之一),DevOps(开发运维)如今是科技人士挂在嘴边的热词,但遗憾的是,类似圣经,每个人都引用DevOps的只言片语,但真正理解并能执行的人极少.根据CA的一项 ...

  7. vivo 服务端监控体系建设实践

    作者:vivo 互联网服务器团队- Chen Ningning 本文根据"2022 vivo开发者大会"现场演讲内容整理而成. 经过几年的平台建设,vivo监控平台产品矩阵日趋完善 ...

  8. IoT与区块链的机遇与挑战

    区块链, 分布式账本技术的一种形式, 自从2014年或多或少地获得了大量的关注: 区块链和物联网, 区块链和安全, 区块链和金融, 区块链和物流, 凡是你能想到的,仿佛都可以应用区块链. 在本文中, ...

  9. [转帖]开源的监控技术栈除了ELK,还有InfluxData的TICK

    开源的监控技术栈除了ELK,还有InfluxData的TICK   https://cloud.tencent.com/developer/news/357119 来源 | Influxdata 译者 ...

  10. 数字化转型:敏捷和DevOps如何降低风险,提高速度

    进行数字化转型就意味着团队需要应对经常发生冲突的挑战--例如,要应对在复杂的相互依赖环境中快速变化的需求.对软件开发人员来说,这是一个熟悉的困境. 如果使用传统的瀑布方法来应对这些挑战,就会发现,在线 ...

随机推荐

  1. Mac终端出现 brew command not found 解决

    MacOS 上您需要安装 unrar 以支持 PaddlePaddle,可以使用命令brew install unrar 执行命令后发现 brew 不存在 jimmy@MacBook-Pro ~ % ...

  2. python的format方法中文字符输出问题

    format方法的介绍 前言 提示:本文仅介绍format方法的使用和中文的输出向左右和居中输出问题 一.format方法的使用 format方法一般可以解决中文居中输出问题,假如我们设定宽度,当中文 ...

  3. 2022-07-05:给定一个数组,想随时查询任何范围上的最大值。 如果只是根据初始数组建立、并且以后没有修改, 那么RMQ方法比线段树方法好实现,时间复杂度O(N*logN),额外空间复杂度O(N*

    2022-07-05:给定一个数组,想随时查询任何范围上的最大值. 如果只是根据初始数组建立.并且以后没有修改, 那么RMQ方法比线段树方法好实现,时间复杂度O(NlogN),额外空间复杂度O(Nlo ...

  4. 2020-12-24:MQ中,如何保证消息不丢失?

    福哥答案2020-12-24: 生产者丢失消息:如网络传输中丢失消息.MQ 发生异常未成功接收消息等情况. 解决办法:主流的 MQ 都有确认或事务机制,可以保证生产者将消息送达到 MQ.如 Rabbi ...

  5. 2021-02-28:给定一个整型数组arr,和一个整数num。某个arr中的子数组sub,如果想达标,必须满足:sub中最大值 – sub中最小值 <= num,返回arr中达标子数组的数量。

    2021-02-28:给定一个整型数组arr,和一个整数num.某个arr中的子数组sub,如果想达标,必须满足:sub中最大值 – sub中最小值 <= num,返回arr中达标子数组的数量. ...

  6. C++中的字符串编码处理

    今天由于在项目中用到一些与C++混合开发的东西 ,需要通过socket与C++那边交换数据,没啥特别的,字节码而已,两边确定一种编码规则就行了.我们确定的UTF-8.关于C++的 这种又是宽字节 又是 ...

  7. 基于DevExpress的GridControl实现的一些界面处理功能

    DevExpress的GridControl控件能够提供很多强大的操作,其视图GridView能够通过各种设置,呈现出多种复杂的界面效果,本篇随笔探讨一些常见的GridControl控件及其GridV ...

  8. vue 中render执行流程梳理

    用了多年vue 今天对自己了解的render 做一个梳理 一.使用template模板 先从vue 初始化开始: 众所周知项目的main.js中定义了 var app = new Vue({})这vu ...

  9. GPUImage框架使用

    GPUImage框架简介 GPUImage框架是一个基于OpenGL ES 2.0的iOS图像和视频处理框架.它充分利用GPU并行计算能力可以实时处理图像和视频,可以让开发者轻松地实现各种滤镜效果. ...

  10. 文心一言 VS 讯飞星火 VS chatgpt (26)-- 算法导论5.1 1题

    一.证明:假设在过程 HIRE-ASSISTANT 的第 4 行中,我们总能决定哪一个应聘者最佳.则意味着我们知道应聘者排名的全部次序. 文心一言: 证明: 假设在过程 HIRE-ASSISTANT ...