原文链接:https://www.datadoghq.com/state-of-cloud-costs/

编译:CloudPilot AI

尽管灵活多样的云服务为云成本优化提供了诸多机会,但企业在提升日益增长的云支出效率时依旧面临重大挑战。云环境的复杂性和动态性主要源于服务的广度以及企业不断采用新技术的趋势,例如支持人工智能的Arm架构处理器和GPU。这些复杂性使企业难以全面掌握导致云成本上升的各种因素。

在本报告中,Datadog 分析了来自数百家企业的 AWS 云成本数据,深入探讨了新兴技术与上一代技术的使用情况、云资源使用模式,以及参与 AWS 折扣计划对云成本的影响。研究结果表明,尽管企业在上述每个方面都存在优化成本的机会,但在这一复杂多变的环境中,识别并实现这些优化仍然具有一定的挑战性。

Fact 1:GPU实例支出现已占计算成本的14%

在过去一年中,使用 GPU 实例的企业其相关支出平均增加了40%——从占用 EC2 计算成本的10%上升到14%。GPU 的并行处理能力使其成为训练大语言模型(LLMs)和执行其他 AI 工作负载的关键工具,其速度比 CPU 快200%以上。

基于 GPU 的 EC2 实例类型通常比非 GPU 实例更昂贵。然而,最广泛使用的类型——G4dn(被74%的GPU用户采用)——也是成本最低的。这表明,许多客户正在尝试 AI 技术,将 G4dn 应用于他们在自适应AI、机器学习(ML)推理以及小规模训练方面的早期探索。我们预计,随着这些企业扩大 AI 应用并将其投入生产环境,GPU 相关支出将在其云计算预算中占据更大的比例。

Fact 2:Arm实例支出占计算成本的比例在过去一年翻了一番

数据显示,使用 Arm 架构实例的企业,其 EC2 计算成本中有18%花费在 Arm 实例上,这一比例是去年同期的两倍。基于 Arm 处理器的实例比类似的 EC2 实例能耗降低多达60%,同时通常能够以更低成本提供更好的性能。

最常见的 Arm 架构实例类型是T4g,约 65% 的企业选择使用这一实例。这些实例由 Graviton2 处理器驱动,其性价比相较基于 x86-64 架构的 T3 实例高出多达 40%。

尽管 Arm 架构实例目前在 EC2 计算支出中仅占少数,但过去一年这一比例持续稳步增长。这表明,企业正开始更新应用程序,利用更高效的处理器来减缓计算支出的增长趋势。

Fact 3:容器成本占EC2支出的三分之一

企业将约 35% 的 EC2 计算支出用于运行容器,比去年同期的 30% 有所增长。这其中包括用于自托管集群的 Kubernetes 控制节点或工作节点的 EC2 实例,以及运行在 ECS 和 EKS 集群中的实例。在我们分析的所有客户中,大约四分之一的企业将其超过 75% 的 EC2 支出用于运行容器。

我们预计,随着企业越来越多地受益于容器带来的效率提升——包括简化部署流程、更高效的依赖管理,以及基础设施利用率的优化,用于容器的云支出比例将持续增长。然而,企业也将面临新的挑战,例如如何在动态且共享的基础设施上准确归因成本,以及如何以更经济高效的方式规划容器基础设施。

Fact 4:超过80%的容器支出浪费在闲置资源上

研究表明,83%的容器支出与闲置资源相关。 其中约54%的浪费来自集群闲置,即由于集群基础设施的过度配置所产生的成本;另外29%的浪费则与工作负载闲置有关,这是由于资源请求超出实际工作负载需求而造成的。

报告认为,容器支出中的浪费无法完全避免。开发团队在预测新应用程序的资源需求时面临诸多困难,这使得资源分配的效率难以提升。此外,资源需求通常会因工作负载的特性(如复杂度)和利用率的变化而波动。

尽管企业可以通过自动扩展集群基础设施和单个工作负载来优化资源利用,但自动扩展本身复杂性较高。团队可以根据工作负载的流量模式调整扩展参数,但这些优化带来的效率提升通常微乎其微且难以捕捉。

Fact 5:上一代技术仍被广泛使用

虽然 AWS 当前的基础设施产品通常在性能上优于上一代版本且成本更低,但我们的数据显示,尽管企业正在努力实现现代化,在 EC2 实例类型和 EBS 卷类型的使用上,旧技术仍然在许多环境中占据重要地位。

研究发现,83% 的企业仍然使用上一代 EC2 实例类型,尽管这一比例已较一年前的 89% 已有所下降。这些企业平均将约 17% 的 EC2 预算花费在这些旧实例上。

在 EBS 方面,当前一代EBS卷(gp3)的成本比 gp2 卷低约 20%,但企业在使用旧版卷上的支出仍然较高。gp2 卷的成本占平均企业 EBS 支出的 58%,较一年前的 68% 有所下降。

我们预计,尽管 gp2 卷在短期内仍会被使用,但随着时间的推移,企业将逐渐减少对其的依赖。迁移的挑战——包括迁移大量数据的复杂性、所需的跨团队协作,以及如何预测工作负载在新技术下的表现——导致迁移进程缓慢。然而,新版 EC2 和 EBS 技术所带来的成本降低和性能提升——甚至未来的新技术——将继续成为迁移的持续驱动力。

Fact 6:跨可用区(AZ)流量占数据传输成本的一半

我们的研究发现,平均而言,企业在将数据从一个可用区(AZ)发送到另一个可用区的费用,几乎等同于所有其他类型的数据传输费用,包括VPN、网关、入口和出口流量。在某些场景下,跨AZ流量可能是不可避免的,例如,应用的高可用性架构要求实例部署在多个可用区。这也可能是随着团队、服务和应用程序规模的扩大,带来的不可避免的副作用。

无论成本来源如何,其影响都是显著的:98%的企业都受到跨可用区费用的影响。这可能表明,几乎所有企业都有机会通过优化云成本来提高效率,例如,在可用性要求允许的情况下,将相关资源集中部署在单一AZ内。

在某些情况下,云服务提供商已经取消了对某些类型数据传输的收费。虽然很难预见这些变化将如何演变,但如果提供商进一步放宽数据传输费用,未来的跨AZ流量可能会在云成本优化中不再是一个重要因素。

Fact 7:越来越少的企业使用基于承诺的折扣

云服务提供商对许多服务提供折扣,例如,AWS 为 Amazon EC2、Amazon RDS、Amazon SageMaker 等提供折扣计划。大多数企业选择参与这些计划,承诺未来产生一定的支出或服务使用量。然而,数据显示,参与这些计划的企业比例在下降——去年为72%,而今年为67%。

此外,企业对这些折扣计划的参与度相对较低——只有29%的企业购买的折扣足以覆盖其超过一半的云支出。这种低使用率表明,企业无法完全承诺特定的使用量或支出,可能是因为他们很难准确预测资源需求,导致无法自信地承诺长期使用。

另外,企业在做出折扣购买决策时,也可能面临责任不明确的问题,难以确定哪些团队负责这些决策,以及哪些资源受影响。我们认为,这需要进一步优化,大多数企业可以通过更全面地理解云支出的使用模式,充分利用折扣来降低成本。

Fact 8:使用 Savings Plans 的企业是使用预留实例企业的四倍以上

AWS 用户有两种方式来降低 EC2 成本:Savings Plans,即用户承诺一定金额的 EC2 支出;和预留实例(Reserved Instances),即用户承诺在特定可用区使用某种实例类型。

Savings Plans 更具灵活性,我们发现,大多数企业(59%)选择使用 Savings Plans,至少将其用于部分 EC2 支出。使用预留实例的企业则要少得多,只有15%。这可能表明,企业在预测 EC2 支出时更有信心,而对于需要部署哪些实例类型以及在哪里部署则相对不那么确定。

公司介绍

CloudPilot AI 是一家全球领先的 Karpenter 托管云服务提供商,致力于通过智能化、自动化的云资源调度和编排技术,帮助企业最大化云资源利用率。我们秉持“让客户在云中花费的每一分钱都物超所值”的使命,为客户提升10倍的资源效率,同时将云成本降低50%以上。

目前,开源K8s弹性伸缩器 Karpenter 已为全球超500家知名企业在生产环境中提供服务,包括阿迪达斯、Anthropic、Slack、Figma等。CloudPilot AI 已为数十家全球顶尖科技公司提供服务,累计为客户节省超过30万美金,平均节省67%。 选择CloudPilot AI,让每一笔支出都更智慧。

免费试用,2步5分钟,降低50%云成本:www.cloudpilot.ai

Datadog发布云成本现状报告:83%的容器支出被闲置资源浪费的更多相关文章

  1. 43%非常看好TypeScript…解读“2022前端开发者现状报告”

    摘要:近日,The Software House 发布了"2022前端开发者现状报告",笔者在此对报告内容进行解读,供大家参考. 本文分享自华为云社区<"2022前 ...

  2. 阿里云96页报告详解《云上转型》(10个案例、10大趋势/完整版PPT)

    阿里云96页报告详解<云上转型>(10个案例.10大趋势/完整版PPT) 2017-12-29 14:20阿里云/云计算/技术 ﹃产业前沿超级干货﹄ ﹃数据观○重磅速递﹄ 阿里云研究中心云 ...

  3. Helm 3 发布 | 云原生生态周报 Vol. 27

    作者 | 墨封.元毅.冬岛.敖小剑.衷源 业界要闻 1.Helm 3 发布 美国时间 11 月 13 日,Helm 团队发布 Helm 3 第一个稳定版本.Helm 3 以 Helm 2 的核心特性为 ...

  4. 云原生生态周报 Vol. 8 | Gartner 发布云原生趋势

    业界要闻 Gartner 发布云原生基础设施未来的八大趋势:权威分析机构 Gartner 在对 2020 年技术趋势的展望当中指出:“预计2020年所有领先的容器管理软件均内置服务融合技术,到2022 ...

  5. 灵雀云发布云原生制品仓库Harbor企业版(Alauda Registry Service for Harbor)

      灵雀云发布云原生制品仓库Harbor企业版(Alauda Registry Service for Harbor) 近日,国内领先的云原生全栈私有云提供商灵雀云宣布,推出企业版云原生制品仓库Ala ...

  6. 避免闲置云资源浪费 | 阿里云轻量级分布式应用服务 SAE 邀您公测

    您是否遇到过: 资源利用率低,多数服务器CPU平均利用率在10%以下,用户需为大量闲置资源买单. 感知 IaaS 购买和集群运维,人员技能要求高,运维效率低. 想拥抱 Kubernetes.微服务架构 ...

  7. 分布式系统的应用程序性能监视工具,专为微服务、云本机架构和基于容器(Docker、K8s、Mesos)架构而设计。 SkyWalking

    Apache SkyWalking™ | SkyWalking Teamhttp://skywalking.apache.org/zh/ Application performance monitor ...

  8. 2019 年 CNCF 中国云原生调查报告

    中国 72% 的受访者生产中使用 Kubernetes 在 CNCF,为更好地了解开源和云原生技术的使用,我们定期调查社区.这是第三次中国云原生调查,以中文进行,以便更深入地了解中国云原生技术采用的步 ...

  9. Gartner发布最新魔力象限报告,微软领跑数据库市场(编译自TechRepublic)

    知名调研机构Gartner发布了最新的<2015年数据库管理系统魔力象限调研报告>.报告显示,微软.甲骨文和AWS是数据库市场的三大领导厂商. 此份报告对知名的商用以及开源数据库厂商进行了 ...

  10. 2019 年容器生态统计报告发布 | 云原生生态周报 Vol. 26

    作者 | 酒祝.天元.元毅.心水.衷源 业界要闻 1.2019 年容器生态统计报告发布  据报告显示,Kubernetes 占据 77% 的容器编排产品份额,Docker 占据 79% 的容器引擎产品 ...

随机推荐

  1. Vue3——Vue Router

    安装 vue-router 依赖包 npm install vue-router@4 创建 router 文件夹,然后在里面创建一个 index.ts 文件,用于定义你的路由配置 // index.t ...

  2. 在Linux 中使用 pidstat 命令监控进程性能

    一.安装 pidstat 命令 检查系统是否已经安装了 pidstat 打开终端,输入以下命令检查是否已经安装了 pidstat: pidstat -V 如果显示版本信息,说明已经安装,可以跳过安装步 ...

  3. 使用ftrace查找Kernel启动阶段的延时原因

    查找Kernel启动阶段的延时原因 1.确保内核配置了如下选项 CONFIG_FTRACE: "Tracers" CONFIG_FUNCTION_TRACER: "Ker ...

  4. 我对CMD 和 AMD 的理解 ?

    都是模块规范,和 CommonJs 一样都是社区规范,ES-module 才是官方规范,而且官方规范是趋势 : AMD:Asynchronous Module Definition  异步模块定义,即 ...

  5. prometheus+grafana配置流程

    prometheus+grafana配置流程 首先,安装对应的exporter 查看prometheus支持的所有exporters https://prometheus.io/docs/instru ...

  6. 云原生周刊:2023 年 Java 开发人员可以学习的 25 大技术技能

    文章推荐 2023 年 Java 开发人员可以学习的 25 大技术技能 这篇文章为 Java 开发人员提供了 2023 年需要学习的一些重要技能,这些技能涵盖了现代 Java 开发.大数据和人工智能. ...

  7. 从0到1实现项目Docker编排部署

    在深入讨论 Docker 编排之前,首先让我们了解一下 Docker 技术本身.Docker 是一个开源平台,旨在帮助开发者自动化应用程序的部署.扩展和管理.自 2013 年推出以来,Docker 迅 ...

  8. 为什么样本方差是除以 n-1 而不是 n?

    摘自https://www.zhihu.com/question/20099757/answer/13971886 https://www.zhihu.com/question/20099757/an ...

  9. CSS动画(轮播图)

    1.整体效果 https://mmbiz.qpic.cn/sz_mmbiz_gif/EGZdlrTDJa78enaFEibNNCoXO9Hr2PI7boFTRgZHl3icicXwzLGLTQPxCl ...

  10. antdesign vue 步骤条a-step按审核人员节点排序显示逻辑

    一.需求内容 目前审核人员角色有:学术.法务.售后,串行执行审核流程. 审核流程:发起/修改审核->审核节点 审核节点规则:学术->法务->售后,每个节点均可以审核或修改. 审核状态 ...