本文主要基于MXNet1.6.0版本,对Gluon接口的分布式训练过程进行简要分析. 众所周知,KVStore负责MXNet分布式训练过程中参数的同步,那么它究竟是如何应用在训练中的呢?下面我们将从Gluon.Trainer这个接口入手,逐步分析分布式训练的梯度交换以及参数同步过程.下面这段代码摘自python/mxnet/gluno/trainer.py文件,相较于源代码删除了一些多余的信息(如某些判断.注释等),以便让我们更好地专注于通信过程. 代码中的step函数是进行梯度交换以及参数更新…
[源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 目录 [源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 0x00 摘要 0x01 架构图 0x02 统一层 0x03 Horovod OP 类体系 3.1 基类 HorovodOp 3.2 派生类 AllreduceOp 3.3 适配类 MPIAllreduce 3.4 后台线程如何使用 3.4.1 具体collective 操作 3.4.2 调用不同类型的OP 3.4.3 取一个适配层…
[源码解析] 深度学习分布式训练框架 horovod (8) --- on spark 目录 [源码解析] 深度学习分布式训练框架 horovod (8) --- on spark 0x00 摘要 0x01 Spark相关知识 1.1 为什么整合 Spark 1.2 Spark 简单架构 1.3 Pyspark 原理 1.3.1 架构修改 1.3.2 Driver端 1.3.3 Executor端 1.3.4 流程 0x02 机器学习 on Spark 2.1 机器学习的特点 2.2 机器学习…
[源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 目录 [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 0x00 摘要 0x01 Horovod 简介 0x02 Hovorod 机制概述 2.1 Horovod 机制 0x03 示例代码 3.1 摘要代码 3.2 horovodrun 0x04 运行逻辑 4.1 引入python文件 4.2 初始化 in python 4.2.1 引入SO库 4.2.1.1 SO库 4…
[源码解析] 深度学习分布式训练框架 horovod (4) --- 网络基础 & Driver 目录 [源码解析] 深度学习分布式训练框架 horovod (4) --- 网络基础 & Driver 0x00 摘要 0x01 引子 0x02 总体架构 2.1 get_local_interfaces 2.2 _driver_fn 2.3 获取路由接口 2.3.1 probe逻辑 2.3.2 等待函数 0x03 基础网络服务 3.1 继承关系 3.2 network.BasicServic…
[源码解析] 深度学习分布式训练框架 horovod (3) --- Horovodrun背后做了什么 目录 [源码解析] 深度学习分布式训练框架 horovod (3) --- Horovodrun背后做了什么 0x00 摘要 0x01 背景知识 1.1 分布式体系 1.2 并行任务通信 1.3 MPI 1.4 Open-MPI 1.5 MPI 使用问题 0x02 入口点 2.1 如何运行 2.2 horovodrun 2.3 run_commandline 2.4 非弹性训练 _run_st…
[源码解析] 深度学习分布式训练框架 horovod (13) --- 弹性训练之 Driver 目录 [源码解析] 深度学习分布式训练框架 horovod (13) --- 弹性训练之 Driver 0x00 摘要 0x01 角色 1.1 角色设定 1.2 职责 0x02 调用部分 2.1 _run 2.2 _run_elastic 2.3 gloo_run_elastic 2.4 get_common_interfaces 2.5 获取异地网卡信息 2.6 launch_gloo_elast…
[源码解析] 深度学习分布式训练框架 horovod (14) --- 弹性训练发现节点 & State 目录 [源码解析] 深度学习分布式训练框架 horovod (14) --- 弹性训练发现节点 & State 0x00 摘要 0x01 设计点 0x02 发现机制 2.1 发现脚本 2.2 HostManager 2.2.1 order_available_hosts 2.3 配置 0x03 如何调用 3.1 无限循环线程 3.1.1 定时探寻 3.1.2 通知变化 3.2 如何通知…
[源码解析] 深度学习分布式训练框架 horovod (15) --- 广播 & 通知 目录 [源码解析] 深度学习分布式训练框架 horovod (15) --- 广播 & 通知 0x00 摘要 0x01 问题 1.1 HorovodInternalError 1.2 HostsUpdateInterrupt 0x02 广播机制 2.1 广播实现 2.1.1 TensorFlowKerasState 2.1.2 广播模型 2.1.3 广播变量 2.1.4 广播对象 2.1.5 HVD C…
[源码解析] 深度学习分布式训练框架 horovod (16) --- 弹性训练之Worker生命周期 目录 [源码解析] 深度学习分布式训练框架 horovod (16) --- 弹性训练之Worker生命周期 0x00 摘要 0x01 Worker 是什么 1.1 角色 1.2 职责 1.3 组网机制 1.3.1 通信环 1.3.2 弹性构建 1.3.2.1 Driver 监控 1.3.2.2 Driver 重新构建 0x02 总体生命流程 0x03 配置过程 0x04 启动过程 4.1 总…