本文主要基于MXNet1.6.0版本,对Gluon接口的分布式训练过程进行简要分析。

众所周知,KVStore负责MXNet分布式训练过程中参数的同步,那么它究竟是如何应用在训练中的呢?下面我们将从Gluon.Trainer这个接口入手,逐步分析分布式训练的梯度交换以及参数同步过程。下面这段代码摘自python/mxnet/gluno/trainer.py文件,相较于源代码删除了一些多余的信息(如某些判断、注释等),以便让我们更好地专注于通信过程。

代码中的step函数是进行梯度交换以及参数更新的主体,它首先调用_init_kvstore去初始化kvstore,然后调用_allreduce_grads进行梯度传输,最后调用_update实现参数更新。

class Trainer(object):
def step(self, batch_size, ignore_stale_grad=False):
if not self._kv_initialized:
self._init_kvstore()
if self._params_to_init:
self._init_params() self._allreduce_grads()
self._update(ignore_stale_grad)

首先,_init_kvstore这个函数会通过用户指定的参数来调用model.py中的_create_kvstore来初始化kvstore以及update_kv_store这两个变量。其中kvstoreKVStore类的一个实例化对象,而update_on_kvstore是一个布尔型变量,用来判断是否在ps端更新参数。换句话说,如果该变量为True,那么模型参数的更新发生在ps端;否则,模型参数的更新发生在worker端,ps端只做梯度的聚合操作(这种情况下,paramerter server是不是就变成了gradient server?)。然而,只有在同步训练模式下,我们才能设置update_on_kvstore=False,异步训练并不支持在worker端更新参数。在update_kv_store=True的情况下,我们需要告诉ps端训练过程中使用的优化器是什么,因此要调用kvstore.set_optimizer把优化器从worker端传给ps端。

from ..model import _create_kvstore
class Trainer(object):
def _init_kvstore(self):
"""Create kvstore."""
config = self._kvstore_params
arg_arrays = {param.name: param.data(self._contexts[0]) for param in self._params}
kvstore, update_on_kvstore = _create_kvstore(config['kvstore'], len(self._contexts),
arg_arrays)
self._distributed = 'dist' in kvstore.type if kvstore else False
if self._distributed and 'async' in kvstore.type:
update_on_kvstore = True
# raise err if user provides unsupported configs
if config['update_on_kvstore'] is False:
raise ValueError("Please set update_on_kvstore=True "
"when training in async mode.")
if config['update_on_kvstore'] is not None:
update_on_kvstore = config['update_on_kvstore' if kvstore:
if update_on_kvstore:
# optimizer preferably needs to be set before init for multiprecision
kvstore.set_optimizer(self._optimizer)
self._kvstore = kvstore
self._update_on_kvstore = update_on_kvstore
else:
self._kvstore = None
self._update_on_kvstore = None
self._kv_initialized = True

完成kvstore的初始化后,gluon.Trainer会调用_allreduce_grads来实现梯度的交换。欸,前面不是说MXNet是参数服务器架构吗,为啥为扯到Allreduce上呢?考虑update_on_kvstore=False的情况,最开始每个worker上都只有自己的本地梯度,把梯度push到ps并进行聚合后,每个worker从ps上pull回来的都是相同的、聚合后的梯度。整个过程中的push和pull操作,是不是就很像Reduce和Broadcast(worker上的梯度“Reduce”到ps上,然后ps端“Broadcast”聚合结果给各个worker)?观察_allreduce_grads的实现,可以发现,无论update_on_kvstore的值是什么,gluno.Trainer都会把梯度从worker端push到ps端,只不过当update_on_kvstore=True时,gluon.Trainer把梯度从worker上push到ps后就完事儿了;而当updata_on_kvstore=False时,gluon.Trainer还会从ps端把梯度的聚合结果pull回来,以便进行本地的参数更新。

class Trainer(object):
def _allreduce_grads(self):
if self._kvstore:
for i, param in enumerate(self._params):
if param.grad_req != 'null':
self._kvstore.push(i, param.list_grad(), priority=-i)
if not self._update_on_kvstore:
self._kvstore.pull(i, param.list_grad(), priority=-i,
ignore_sparse=self._distributed)

gluon.Trainer._update函数会根据update_on_kvstore的值进行相应的参数拉取以及更新操作。在单机训练(kvstore is None)或者分布式训练的本地更新模式(update_on_kvstore=True)下,gluon.Trainer会使用用户设定的优化器在本地更新参数,以进行下一步的训练。在分布式训练的情况下,当我们设置update_on_kvstore=True时,模型参数会在ps端进行更新,所以在该函数只需要将模型参数从ps端pull到本地即可。

class Trainer(object):
def _update(self, ignore_stale_grad=False):
updates = [[] for _ in self._updaters] for i, param in enumerate(self._params):
if self._kvstore and self._update_on_kvstore:
if param._stype == 'default':
# 'row_sparse' parameters are not pulled immediately - they're pulled
# in `Block.forward`
self._kvstore.pull(i, param.list_data(), priority=-i)
continue for upd, arr, grad in zip(updates, param.list_data(), param.list_grad()):
if not ignore_stale_grad or arr._fresh_grad:
upd.append((i, grad, arr))
arr._fresh_grad = False if not (self._kvstore and self._update_on_kvstore):
for updater, upd in zip(self._updaters, updates):
if upd:
i, w, g = zip(*upd)
updater(i, w, g)

到这里,我们基本上就把python端的kvstore调用流程讲完了。

MXNet源码分析 | Gluon接口分布式训练流程的更多相关文章

  1. [源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架

    [源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 目录 [源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 0x00 摘要 0x01 架构图 ...

  2. [源码解析] 深度学习分布式训练框架 horovod (8) --- on spark

    [源码解析] 深度学习分布式训练框架 horovod (8) --- on spark 目录 [源码解析] 深度学习分布式训练框架 horovod (8) --- on spark 0x00 摘要 0 ...

  3. [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入

    [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 目录 [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 0x00 摘要 0 ...

  4. [源码解析] 深度学习分布式训练框架 horovod (4) --- 网络基础 & Driver

    [源码解析] 深度学习分布式训练框架 horovod (4) --- 网络基础 & Driver 目录 [源码解析] 深度学习分布式训练框架 horovod (4) --- 网络基础 & ...

  5. [源码解析] 深度学习分布式训练框架 horovod (3) --- Horovodrun背后做了什么

    [源码解析] 深度学习分布式训练框架 horovod (3) --- Horovodrun背后做了什么 目录 [源码解析] 深度学习分布式训练框架 horovod (3) --- Horovodrun ...

  6. [源码解析] 深度学习分布式训练框架 horovod (13) --- 弹性训练之 Driver

    [源码解析] 深度学习分布式训练框架 horovod (13) --- 弹性训练之 Driver 目录 [源码解析] 深度学习分布式训练框架 horovod (13) --- 弹性训练之 Driver ...

  7. [源码解析] 深度学习分布式训练框架 horovod (14) --- 弹性训练发现节点 & State

    [源码解析] 深度学习分布式训练框架 horovod (14) --- 弹性训练发现节点 & State 目录 [源码解析] 深度学习分布式训练框架 horovod (14) --- 弹性训练 ...

  8. [源码解析] 深度学习分布式训练框架 horovod (15) --- 广播 & 通知

    [源码解析] 深度学习分布式训练框架 horovod (15) --- 广播 & 通知 目录 [源码解析] 深度学习分布式训练框架 horovod (15) --- 广播 & 通知 0 ...

  9. [源码解析] 深度学习分布式训练框架 horovod (16) --- 弹性训练之Worker生命周期

    [源码解析] 深度学习分布式训练框架 horovod (16) --- 弹性训练之Worker生命周期 目录 [源码解析] 深度学习分布式训练框架 horovod (16) --- 弹性训练之Work ...

随机推荐

  1. redis 入门使用

     一.Redis 数据类型及结构特点 Redis 最常见的5中数据结构有 String(字符串),List(列表),Set(集合),Hash(散列),Sorted Sets (有序集合),下表简单总结 ...

  2. Ajax_Post用法

    Ajax_Post用法 post方法的用法其实跟get是大同小异的 唯一不同的地方就是我们需要修改server.js的文件 只需要将get修改为post即可 那么我为了方便操作我这里选择的是直接在下面 ...

  3. dubbo系列一、dubbo启动流程

    目录 dubbo启动流程分析记录 一.dubbo provider启动流程 1.自动装配 2.ServiceBean处理 3.服务暴露export() 3.1.检测dubbo.xxx.配置属性,配置到 ...

  4. 返回值String表示视图

    第一种:处理器方法返回String--表示逻辑视图名称(需配置视图解析器) 视图解析器: MyController类中: index.jsp中: 第二种:处理器方法方慧String,表示完整视图路径, ...

  5. 多线程-守护线程-setDaemon

    1 package multithread4; 2 /* 3 * 停止线程: 4 * 1,stop方法. 5 * 6 * 2,run方法结束. 7 * 8 * 怎么控制线程的任务结束呢? 9 * 任务 ...

  6. 运行项目时出现Sat May 15 20:00:19 CST 2021 WARN: Establishing SSL connection without server‘s identity veri

    这时我们只需要在连接数据库的url上设置:useSSL=false就可以了.

  7. Oracle AWR报告采样分析

    DB time可以用来判断数据库整体是否繁忙,如果Elapsed*CPU个数小于DB time,代表数据库整体比较繁忙,CPU负载会比较高. Report Summary分为8个部分,最主要的是loa ...

  8. 学习Java第3天

    今天所做的工作: 1.循环结构 2.字符串 3.数组 4.面向对象概述 明天工作安排: 1.类和对象 2.包装类 所遇到的问题及解决方法: 1.循环foreach语句 2.字符串初始化与c++的差异 ...

  9. Nginx同server配置下配置多个localhost路由地址

    nginx多页面路由配置,进入 nginx/conf/nginx.conf: http { ...... server { listen 80; server_name localhost; loca ...

  10. AWS SAA_C01 考试分享。

    Saa-c01 经验分享! 序言1.介绍自己的情况,我是一个做后台开发的初级java程序员.还是处于在写业务逻辑的阶段,我对aws可谓是啥都不懂,纯种的小白,完全是从0基础开始学习的.希望分享一些我的 ...