摘要: 在刚刚结束的云栖大会上,阿里云容器服务演示了容器的自动弹性伸缩,能够从容应对互联网应用的峰值流量.阿里云容器服务不仅支持容器级别的自动弹性伸缩,也支持集群节点级别的自动弹性伸缩.从而真正做到从容应对高峰流量的场景,提高自动化运维水平及系统可用性. 简介 在刚刚结束的云栖大会上,阿里云容器服务演示了容器的自动弹性伸缩,能够从容应对互联网应用的峰值流量.关于阿里云上容器的自动弹性伸缩,可以参考文章在阿里云上进行Docker应用的自动弹性伸缩.同时在流量变大的时候自动进行容器的弹性伸缩,要求容…
分布式训练与 Kubeflow 当开发者想要讲深度学习的分布式训练搬上 Kubernetes 集群时,首先想到的往往就是 Kubeflow 社区中形形色色的 operators,如 tf-operator.mpi-operator. 这些服务于各种深度学习训练(TensorFlow.PyTorch.MXNet 等)的 operators 主要的工作包括: 在 Kubernetes 集群上创建 Pod 以拉起各个训练进程 配置用作服务发现的信息(如 TF_CONFIG)以及创建相关 Kuberne…
引言 随着模型规模和数据量的不断增大,分布式训练已经成为了工业界主流的 AI 模型训练方式.基于 Kubernetes 的 Kubeflow 项目,能够很好地承载分布式训练的工作负载,业已成为了云原生 AI 领域的事实标准,在诸多企业内广泛落地. 尽管 Kubeflow 让基于 Kubernetes 的大规模分布式训练变得可行,但是云原生的极致弹性.降本增效等特性在人工智能场景下没有得到很好地释放. 为了解决目前在云原生 AI 场景下的成本高,资源利用率低等问题,TKE AI 团队在 Kubef…
在OpenShift平台上验证NVIDIA DGX系统的分布式多节点自动驾驶AI训练 自动驾驶汽车的深度神经网络(DNN)开发是一项艰巨的工作.本文验证了DGX多节点,多GPU,分布式训练在DXC机器人驱动环境中运行. 还使用了一个机器人学习平台来驱动深度学习(11.3)的工作负载.目前,OpenShift 3.11已部署在许多大型GPU加速的自动驾驶(AD)开发和测试环境中.这里显示的方法同样适用于新的OpenShift版本,并且可以转移到其他基于OpenShift的集群中. DXC Robo…
摘要:上海人工智能实验室的浦视开源算法体系(OpenMMLab)团队基于昇腾AI发布了MMDeploy 0.10.0版本,该版本已支持OpenMMLab算法仓库在昇腾异构计算架构CANN上的推理部署. 本文分享自华为云社区<又一重要进展发布!OpenMMLab算法仓支持昇腾AI训练加速>,作者:昇腾CANN . 近日,上海人工智能实验室的浦视开源算法体系(OpenMMLab)团队基于昇腾AI发布了MMDeploy 0.10.0版本,该版本已支持OpenMMLab算法仓库在昇腾异构计算架构CAN…
传统的机器学习模型,数据集比较小,模型的算法也比较简单,使用单机存储,或者本地硬盘就足够了,像 JuiceFS 这样的分布式存储并不是必需品. 随着近几年深度学习的蓬勃发展,越来越多的团队开始遇到了单机存储的瓶颈,分布式存储在 AI 领域的重要性不断凸显.AI 团队通常会面临以下几种问题: 数据集太大 随着数据量和模型规模的增加,单机存储往往无法满足需求.为解决这些问题,就需要使用分布式存储. 历史数据集需要进行全量归档 在某些应用场景每天都会产生大量新的数据集,这些数据集在一段时间后将变为历史…
摘要:相比于传统的软件开发,AI开发存在以下4个痛点:算法繁多:训练时间长:算力需求大:模型需手动管理,我们可以使用云上AI开发的方式来缓解以上4个痛点. 本文分享自华为云社区<git clone开启云上AI开发>,作者:ModelArts开发者. 已发布地址:https://developer.huaweicloud.com/develop/aigallery/article/detail?id=17052711-f3f5-4b53-bdbc-5d5c7cdc64fa 一.为什么需要云上AI…
Serverless Kubernetes和ACK虚拟节点都已基于ECI提供GPU容器实例功能,让用户在云上低成本快速搭建serverless AI实验室,用户无需维护服务器和GPU基础运行环境,极大降低AI平台运维的负担,显著提升整体计算效率. 如何使用GPU容器实例 在pod的annotation中指定所需GPU的类型(P4/P100/V100等),同时在resource.limits中指定GPU的个数即可创建GPU容器实例.每个pod独占GPU,暂不支持vGPU,GPU实例的收费与ECS…
背景 机器学习工作负载与传统的工作负载相比,一个比较显著的特点是对 GPU 的需求旺盛.在之前的文章中介绍过(https://mp.weixin.qq.com/s/Nasm-cXLtJObjLwLQHALmw 和 https://mp.weixin.qq.com/s/X4VDynLfKdVp-tyciQccyQ),目前 GPU 的显存已经不足以跟上模型参数规模的发展.随着 Transformer 等新的模型结构的出现,这一问题越来越显著.算法工程师们训练模型所需要的资源越来越多,分布式训练也随之…
Amazon SageMaker和NVIDIA NGC加速AI和ML工作流 从自动驾驶汽车到药物发现,人工智能正成为主流,并迅速渗透到每个行业.但是,开发和部署AI应用程序是一项具有挑战性的工作.该过程要求通过组合硬件,软件和复杂的工作流程来构建可伸缩的基础结构,这既耗时又容易出错.为了加速端到端的AI工作流程,需要一个统一的平台来使更快地投入生产. 本文演示了Amazon SageMaker和NVIDIA NGC之间的集成如何帮助数据科学家加速其AI工作流程,构建功能强大的应用程序以及收集实现…