背景 机器学习工作负载与传统的工作负载相比,一个比较显著的特点是对 GPU 的需求旺盛.在之前的文章中介绍过(https://mp.weixin.qq.com/s/Nasm-cXLtJObjLwLQHALmw 和 https://mp.weixin.qq.com/s/X4VDynLfKdVp-tyciQccyQ),目前 GPU 的显存已经不足以跟上模型参数规模的发展.随着 Transformer 等新的模型结构的出现,这一问题越来越显著.算法工程师们训练模型所需要的资源越来越多,分布式训练也随之…
在刚刚结束的CLOUD NATIVE+ OPEN SOURCE Virtual Summit China 2020上,由华为云云原生团队主导的容器批量计算项目Volcano正式发布1.0版本,标志着Volcano项目已经开始走向成熟与稳定. Volcano项目介绍 Volcano是基于Kubernetes的云原生批量计算引擎,基于华为云在AI.大数据领域的深厚业务积累,补齐了Kubernetes在面向AI.大数据.高性能计算等批量计算任务调度.编排等场景下的短板,向下支持鲲鹏.昇腾.X86等多元…
--- *构建Quarkus本地镜像.容器化部署Quarkus项目* Quarkus系列博文 Quarkus&GraalVM介绍.创建并启动第一个项目 构建Quarkus本地镜像.容器化部署Quarkus项目 ... 概览 上一篇文章主要介绍了Quarkus以及给Quarkus提供"神力"的Java虚拟机GraalVM,并演示了如何安装GraalVM以及Quarkus的初步用法.本文将主要指向Quarkus的"亮点"--本地化应用程序. 以下是本文的两个目标…
第一部分: C#是一种通用的,类型安全的,面向对象的编程语言.有如下特点: (1)面向对象:c# 是面向对象的范例的一个丰富实现, 它包括封装.继承和多态性.C#面向对象的行为包括: 统一的类型系统 类与接口 属性.方法.事件 (2)类型安全:C#还允许通过dynamic关键字动态指定类型. 但是,C#仍然是一个主要的静态类型语言.之所以是一种强类型的语言,是因为它的类型规则是非常严格的,例如,不能够使用一个float类型的参数去调用一个解释int 类型的函数,除非显式的把float转换为int…
AI时代的到来,给企业的底层IT资源的丰富与敏捷提出了更大的挑战,利用阿里云稳定.弹性的GPU云服务器,领先的GPU容器化共享和隔离技术,以及K8S集群管理平台,好未来通过云原生架构实现了对资源的灵活调度,为其AI中台奠定了敏捷而坚实的技术底座. 在2020年云栖大会上,好未来AI中台负责人刘东东,分享了他对AI云原生的理解与好未来的AI中台实践,本文为演讲内容整理. 大家好,我是好未来AI中台技术负责人刘东东.今天我给大家带来的演讲主题是<好未来AI云原生的浅谈>.我的分享主要分成四个部分:…
[源码解析] 深度学习分布式训练框架 horovod (16) --- 弹性训练之Worker生命周期 目录 [源码解析] 深度学习分布式训练框架 horovod (16) --- 弹性训练之Worker生命周期 0x00 摘要 0x01 Worker 是什么 1.1 角色 1.2 职责 1.3 组网机制 1.3.1 通信环 1.3.2 弹性构建 1.3.2.1 Driver 监控 1.3.2.2 Driver 重新构建 0x02 总体生命流程 0x03 配置过程 0x04 启动过程 4.1 总…
为什么我们需要多集群? 近年来,多集群架构已经成为“老生常谈”.我们喜欢高可用,喜欢异地多可用区,而多集群架构天生就具备了这样的能力.另一方面我们也希望通过多集群混合云来降低成本,利用到不同集群各自的优势和特性,以便使用不同集群的最新技术(如 AI.GPU 集群等). 就是因为这种种原因,多集群几乎成为了云计算的新潮流,而被谈及最多并且落地的多集群场景主要有这三类: 一类用于应对“云突发”.如下图 1 所示,正常情况下用户使用自己的 IDC 集群提供服务,当应对突发大流量时,迅速将应用扩容到云上…
[源码解析] 深度学习分布式训练框架 horovod (12) --- 弹性训练总体架构 目录 [源码解析] 深度学习分布式训练框架 horovod (12) --- 弹性训练总体架构 0x00 摘要 0x01 总述 1.1 问题点 1.1 角色 1.2 容错机制 1.4 监控机制 1.5 官方架构图 0x02 示例代码 2.1 python代码 2.2 脚本执行 0x03 逻辑流程 3.1 逻辑流程 3.2 入口点 3.3 主逻辑 3.4 出错处理 0xEE 个人信息 0xFF 参考 0x00…
[源码解析] 深度学习分布式训练框架 horovod (13) --- 弹性训练之 Driver 目录 [源码解析] 深度学习分布式训练框架 horovod (13) --- 弹性训练之 Driver 0x00 摘要 0x01 角色 1.1 角色设定 1.2 职责 0x02 调用部分 2.1 _run 2.2 _run_elastic 2.3 gloo_run_elastic 2.4 get_common_interfaces 2.5 获取异地网卡信息 2.6 launch_gloo_elast…
[源码解析] 深度学习分布式训练框架 horovod (17) --- 弹性训练之容错 目录 [源码解析] 深度学习分布式训练框架 horovod (17) --- 弹性训练之容错 0x00 摘要 0x01总体思路 0x02 抛出异常 2.1 示例代码 2.2 HorovodInternalError 2.3 HostsUpdatedInterrupt 2.4 总结 0x03 处理异常 3.1 总体逻辑 3.2 恢复 3.3 重置 3.3.1 reset 3.3.2 _HorovodBasics…