INTERSPEECH 2015 | Scalable Distributed DNN Training Using Commodity GPU Cloud Computing

一般来说，全连接层的前向和后向传递所需的计算量与权重的数量成正比。此外，数据并行训练中所需的带宽与可训练权重的数量成比例。因此，随着每个节点计算速度的提高，所需的网络带宽也随之增加。这篇文章主要是根据阈值进行梯度的稀疏化和量化操作，从而降低分布式训练中的通信开销。稀疏化指的是只传输那些比较重要的梯度（例如绝对值较大的梯度），而量化则是使用较少的比特来表示原始梯度，二者的差别由下图描述[1]：

本文提出的梯度压缩方法基于以下两个观点：（1）很多加速SGD的方法，包括minibatch SGD、动量法、双缓冲以及异步SGD，都可以在某种程度上视为延迟更新的变体；（2）节点上的子梯度是非常稀疏的，这就意味着只有少量的权值需要更新，换句话说，我们只需要传递那些对权值更新产生较大作用的梯度，而不再传输其余的梯度，这样就能降低带宽占用。

因为只传输那些大于某一阈值的梯度，所以我们必须记住这些梯度的索引，以在接收端对其进行重构。在实现上，我们可以使用字典存储索引和对应的梯度值。为了保证精度，我们并不直接在原始梯度上进行操作，而是操纵一个名为梯度残差的东西。在处理每个minibatch时，我们首先将上一次迭代的梯度残差与本次迭代的原始梯度相加，得到本次迭代的梯度残差。随后，对于残差向量中的每个元素，如果该元素大于正阈值，就将该元素的索引与正阈值编码进字典中，再从对应的残差元素中减去阈值；如果该元素小于负阈值，就将该元素的索引与负阈值编码进字典中，再从对应的残差元素中加上阈值。对于那些绝对值小于阈值的残差元素，我们不再传输它们。但是，随着迭代次数的增加，这些元素可能在某次迭代时就超过了阈值，从而完成一次更新。在某种程度上来说，这就是一种延迟更新策略。算法伪代码如下所示：

在实现中，我们将每个梯度（残差）元素编码为两个数字：整数元素索引和浮点梯度元素。为了进一步降低通信开销，本文使用1比特来编码梯度元素，使用31比特编码元素索引，这样就使用4个字节编码了1个整数和1个浮点数。为了保证模型精度，同样需要使用1 Bit SGD中提到的误差补偿技术。需要注意的是，本文使用的是对等结构而非参数服务器架构，而且整个训练过程中只进行梯度的传输，不进行权值的传输。为了降低GPU与OS之间的I/O瓶颈，作者还使用了CUDA中的某些字符串压缩函数。

参考资料

[1] Tang Z, Shi S, Chu X, et al. Communication-Efficient Distributed Deep Learning: A Comprehensive Survey[J]. arXiv preprint arXiv:2003.06307, 2020.

INTERSPEECH 2015 | Scalable Distributed DNN Training Using Commodity GPU Cloud Computing的更多相关文章

Meet Dgraph — an open source, scalable, distributed, highly available and fast graph databas
https://dgraph.io/ Meet Dgraph — an open source, scalable, distributed, highly available and fast gr ...
Scalable, Distributed Systems Using Akka, Spring Boot, DDD, and Java--转
原文地址:https://dzone.com/articles/scalable-distributed-systems-using-akka-spring-boot-ddd-and-java Whe ...
论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)
论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf 摘要本文研究了利用深度神经网络 ...
（转）分布式深度学习系统构建简介 Distributed Deep Learning
HOME ABOUT CONTACT SUBSCRIBE VIA RSS DEEP LEARNING FOR ENTERPRISE Distributed Deep Learning, Part ...
https ddos检测——研究现状
from: https://jyx.jyu.fi/bitstream/handle/123456789/52275/1/URN%3ANBN%3Afi%3Ajyu-201612125051.pdf 相关 ...
77-CCI，Commodity Channel Index，商品通道指标.(2015.7.1)
CCI,Commodity Channel Index 商品通道指标 Channel Index,商品通道指标.(2015.7.1)" title="77-CCI,Commodit ...
分布式系统(Distributed System)资料
这个资料关于分布式系统资料,作者写的太好了.拿过来以备用网址:https://github.com/ty4z2008/Qix/blob/master/ds.md 希望转载的朋友,你可以不用联系我．但 ...
[专题论文阅读]【分布式DNN训练系统】 FireCaffe
FireCaffe Forrest N. Iandola FireCaffe: near-linear acceleration of deep neural network training on ...
Toward Scalable Systems for Big Data Analytics: A Technology Tutorial (I - III)
ABSTRACT Recent technological advancement have led to a deluge of data from distinctive domains (e.g ...

随机推荐

Windows 重装系统，配置 WSL，美化终端，部署 WebDAV 服务器，并备份系统分区
最新博客文章链接最近发现我 Windows11 上的 WSL 打不开了,一直提示我虚拟化功能没有打开,但我看了下配置,发现虚拟化功能其实是开着的.然后试了各种方法,重装了好几次系统,我一个软件一个软 ...
【数据结构】图的基本操作——图的构造（邻接矩阵，邻接表），遍历（DFS，BFS）
邻接矩阵实现如下: /* 主题:用邻接矩阵实现 DFS(递归) 与 BFS(非递归) 作者:Laugh 语言:C++ ***************************************** ...
day 17 i++优先级大于 *i
(1).有下列定义语句,int *p[4];以下选项中与此语句等价的是[C] (A).int p[4]; (B).int **P; (C).int *(p[4]); (D).int (*p)[4]; ...
【Java】GUI编程
GUI编程前言某koukou老师的任务罢了,好在狂神老师居然有GUI的课,只能说是有救星了. [狂神说Java]GUI编程入门到游戏实战最好笑的是,老师要求掌握的居然是14年的知识,就连狂神在上 ...
Java 异步 I/O
Java 中的异步 I/O 简称 AIO, A 即 Asynchronous.AIO 在 JDK1.7 时引入,基于操作系统提供的异步 I/O 通信模型,封装了一些进行异步 I/O 操作的 API. ...
2022GDUT寒训专题一I题
题目题面给一个长度为 N的数组,一个长为 K的滑动窗体从最左端移至最右端,你只能看到窗口中的 K 个数,每次窗体向右移动一位,如下图: 窗口位置最小值最大值 [1 3 -1] -3 5 3 6 ...
主键约束（primary key 简称PK）
7.5.主键约束主键约束相关术语主键约束主键字段:字段添加了主键约束,叫主键字段主键值:主键字段中的每个值都叫主键值什么是主键? 主键值是每一行记录的唯一标识(主键值是每一行记录的身份证号) ...
【程序18】求s=a+aa+aaa+aaaa+aa...a的值
求s=a+aa+aaa+aaaa+aa-a的值,其中a是一个数字.例如2+22+222+2222+22222(此时共有5个数相加),几个数相加由键盘控制. 知识点:在Python 3里,reduce( ...
【webpack4.0】---base.config.js基本配置(五)
一.创建项目初始化 1.初始化项目npm init -y 2.创建 src (用来存放开发环境的代码)文件夹. config (用来存放webpack的配置项)文件夹 3.安装webpack We ...
JS基础语法（二）
目录 JavaScript基础语法(二) 八. 函数 1. 函数的概念 2. 函数的使用声明函数调用函数 3. 函数的封装 4. 函数的参数函数的参数匹配问题 5. 函数返回值 6. argum ...

INTERSPEECH 2015 | Scalable Distributed DNN Training Using Commodity GPU Cloud Computing

INTERSPEECH 2015 | Scalable Distributed DNN Training Using Commodity GPU Cloud Computing的更多相关文章

随机推荐

热门专题