论文提出了动态ReLU，能够根据输入动态地调整对应的分段激活函数，与ReLU及其变种对比，仅需额外的少量计算即可带来大幅的性能提升，能无缝嵌入到当前的主流模型中

来源：晓飞的算法工程笔记公众号

论文: Dynamic ReLU

Introduction

ReLU是深度学习中很重要的里程碑，简单但强大，能够极大地提升神经网络的性能。目前也有很多ReLU的改进版，比如Leaky ReLU和 PReLU，而这些改进版和原版的最终参数都是固定的。所以论文自然而然地想到，如果能够根据输入特征来调整ReLU的参数可能会更好。

基于上面的想法，论文提出了动态ReLU(DY-ReLU)。如图2所示，DY-ReLU是一个分段函数\(f_{\theta{(x)}}(x)\)，参数由超函数\(\theta{(x)}\)根据输入\(x\)得到。超函数\(\theta(x)\)综合输入的各维度上下文来自适应激活函数\(f_{\theta{(x)}}(x)\)，能够在带来少量额外计算的情况下，显著地提高网络的表达能力。另外，论文提供了三种形态的DY-ReLU，在空间位置和维度上有不同的共享机制。不同形态的DY-ReLU适用于不同的任务，论文也通过实验验证，DY-ReLU在关键点识别和图像分类上均有不错的提升。

Definition and Implementation of Dynamic ReLU

Definition

定义原版的ReLU为\(y=max\{x, 0\}\)，\(x\)为输入向量，对于输入的\(c\)维特征\(x_c\)，激活值计算为\(y_c=max\{x_c, 0\}\)。ReLU可统一表示为分段线性函数\(y_c=max_k\{a^k_c x_c+b^k_c\}\)，论文基于这个分段函数扩展出动态ReLU，基于所有的输入\(x=\{x_c\}\)自适应\(a^k_c\),\(b^k_c\)：

因子\((a^k_c, b^k_c)\)为超函数\(\theta(x)\)的输出：

\(K\)为函数数量，\(C\)为维度数，激活参数\((a^k_c, b^k_c)\)不仅与\(x_c\)相关，也与\(x_{j\ne c}\)相关。

Implementation of hyper function \(\theta(x)\)

论文采用类似与SE模块的轻量级网络进行超函数的实现，对于大小为\(C\times H\times W\)的输入\(x\)，首先使用全局平均池化进行压缩，然后使用两个全连接层(中间包含ReLU)进行处理，最后接一个归一化层将结果约束在-1和1之间，归一化层使用\(2\sigma(x) - 1\)，\(\sigma\)为Sigmoid函数。子网共输出\(2KC\)个元素，分别对应\(a^{1:K}_{1:C}\)和\(b^{1:K}_{1:C}\)的残差，最终的输出为初始值和残差之和：

\(\alpha^k\)和\(\beta^k\)为\(a^k_c\)和\(b^k_c\)的初始值，\(\lambda_a\)和\(\lambda_b\)是用来控制残差大小的标量。对于\(K=2\)的情况，默认参数为\(\alpha^1=1\)，\(\alpha^2=\beta^1=\beta^2=0\)，即为原版ReLU，标量默认为\(\lambda_a=1.0\)，\(\lambda_b=0.5\)。

Relation to Prior Work

DY-ReLU的可能性很大，表1展示了DY-ReLU与原版ReLU以及其变种的关系。在学习到特定的参数后，DY-ReLU可等价于ReLU、LeakyReLU以及PReLU。而当\(K=1\)，偏置\(b^1_c=0\)时，则等价于SE模块。另外DY-ReLU也可以是一个动态且高效的Maxout算子，相当于将Maxout的\(K\)个卷积转换为\(K\)个动态的线性变化，然后同样地输出最大值。

Variations of Dynamic ReLU

论文提供了三种形态的DY-ReLU，在空间位置和维度上有不同的共享机制：

DY-ReLU-A

空间位置和维度均共享(spatial and channel-shared)，计算如图2a所示，仅需输出\(2K\)个参数，计算最简单，表达能力也最弱。

DY-ReLU-B

仅空间位置共享(spatial-shared and channel-wise)，计算如图2b所示，输出\(2KC\)个参数。

DY-ReLU-C

空间位置和维度均不共享(spatial and channel-wise)，每个维度的每个元素都有对应的激活函数\(max_k\{a^k_{c,h,w} x_{c, h, w} + b^k_{c,h,w} \}\)。虽然表达能力很强，但需要输出的参数(\(2KCHW\))太多了，像前面那要直接用全连接层输出会带来过多的额外计算。为此论文进行了改进，计算如图2c所示，将空间位置分解到另一个attention分支，最后将维度参数\([a^{1:K}_{1:C}, b^{1:K}_{1:C}]\)乘以空间位置attention\([\pi_{1:HW}]\)。attention的计算简单地使用\(1\times 1\)卷积和归一化方法，归一化使用了带约束的softmax函数：

\(\gamma\)用于将attention平均，论文设为\(\frac{HW}{3}\)，\(\tau\)为温度，训练前期设较大的值(10)用于防止attention过于稀疏。

Experimental Results

图像分类对比实验。

关键点识别对比实验。

与ReLU在ImageNet上进行多方面对比。

与其它激活函数进行实验对比。

可视化DY-ReLU在不同block的输入输出以及斜率变化，可看出其动态性。

Conclustion

论文提出了动态ReLU，能够根据输入动态地调整对应的分段激活函数，与ReLU及其变种对比，仅需额外的少量计算即可带来巨大的性能提升，能无缝嵌入到当前的主流模型中。前面有提到一篇APReLU，也是做动态ReLU，子网结构十分相似，但DY-ReLU由于\(max_{1\le k \le K}\)的存在，可能性和效果比APReLU更大。

如果本文对你有帮助，麻烦点个赞或在看呗～

更多内容请关注微信公众号【晓飞的算法工程笔记】

Dynamic ReLU：微软推出提点神器，可能是最好的ReLU改进 | ECCV 2020的更多相关文章

微软推出的免费新书《Introducing Microsoft SQL Server 2012》
微软推出的免费新书<Introducing Microsoft SQL Server 2012>,该书详细介绍微软SQL 2012数据库服务最新功能以及功能应用和使用技巧. 该书适合SQL ...
微软推出ASP.NET Core 2.0，并支持更新Visual Studio 2017
微软推出ASP.NET Core 2.0的一般可用性,并发布.NET Core 2.0.该公司还推出了其旗舰集成开发环境(IDE)的更新:Visual Studio 2017版本15.3和Visual ...
微软推出中文学习AI助手Microsoft Learn Chinese
编者按:美国总统特朗普访华期间,他6岁的外孙女阿拉贝拉用中文普通话演唱和背诵传统诗歌的视频在中国社交媒体上引起广泛关注,可以感受得到,越来越多的人对中文学习充满了兴趣.智能私教微软小英帮助很多中国 ...
dafny : 微软推出的形式化验证语言
dafny是一种可验证的编程语言,由微软推出,现已经开源. dafny能够自我验证,可以在VS Code中进行开发,在编辑算法时,写好前置条件和后置条件,dafny验证器就能实时验证算法是否正确. 在 ...
微软推出首个Microsoft Azure Stack技术预览版
Mike Neil,微软公司企业云副总裁怀着对于提高业务灵活性.加速创新的期待,很多企业正在向云平台迅速迁移.伴随着这样的趋势,我们也见证了微软智能云Azure业务在全球市场的快速增长--每个月近1 ...
微软推出了Cloud Native Application Bundles和开源ONNX Runtime
微软的Microsoft Connect(); 2018年的开发者大会对Azure和IoT Edge服务进行了大量更新; Windows Presentation Foundation,Window ...
微软推出全新的Windows终端应用程序
微软正推出一款名为Windows Terminal的新命令行应用程序.它被设计为访问PowerShell,cmd.exe和Windows子系统Linux(WSL)等环境的中心位置.微软正在为想要调整终 ...
微软推出精简版Windows10Lean系统意欲何为？
提起Windows系统,自然无须多言都知道它的重要性.在经历了Windows Vista的失败. Windows 7的成功.Windows 8的平庸和Windows 10的复兴之后,微软算是积累下了大 ...
探索微软开源Python自动化神器Playwright
相信玩过爬虫的朋友都知道selenium,一个自动化测试的神器工具.写个Python自动化脚本解放双手基本上是常规的操作了,爬虫爬不了的,就用自动化测试凑一凑. 虽然selenium有完备的文档,但也 ...
【2016-11-2】【坚持学习】【Day17】【微软推出的SQLHelper】
从网络上找到微软原版本的SQLHelper,很多行代码.认真看了,学习了. 代码: using System; using System.Data; using System.Xml; usin ...

随机推荐

js获取格式化日期方法
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
机器学习策略篇：详解为什么是ML策略？（Why ML Strategy?）
为什么是ML策略? 从一个启发性的例子开始讲,假设正在调试的猫分类器,经过一段时间的调整,系统达到了90%准确率,但对的应用程序来说还不够好. 可能有很多想法去改善的系统,比如,可能想去收集更多的训练 ...
[BUUCTF][Web][GXYCTF2019]Ping Ping Ping 1
打开靶机对应URL 提示有ip参数尝试构造url http://714ad4a2-64e2-452b-8ab9-a38df80dc584.node4.buuoj.cn:81/?ip=127.0.0. ...
Windows如何快速修改hosts文件
作为开发人员,修改hosts文件可能是一个经常会执行的操作(使用自定义域名映射),但是如果每次都需要在Windows资源管理中进入到目录:C:\Windows\System32\drivers\etc ...
关于“非法的前向引用（illegal forward reference）”的探究
1.问题: 有如下代码: public class Test { static { i = 0;// 给变量赋值可以正常编译通过 System.out.print(i);// 编译器会提示" ...
C语言变量和数据类型整理
03-变量和数据类型 3.1 大话C语言变量和数据类型在<数据在内存中的存储>一节中讲到: ●计算机要处理的数据(诸如数字.文字.符号.图形.音频.视频等)是以二进制的形式存放在内存中的 ...
记一次酣畅淋漓的 K8s Ingress 排错过程(302,404,503,...)
故事开始第 1 关:[流量重定向到 /] 第 2 关:[应用返回 302,重定向到 /,引入 503 错误] 第 3 关:[静态资源访问遇到 503 问题] 第 4 关:[静态资源访问遇到 403 ...
第141篇:微信小程序wx.request接口报错(errno: 600001, errMsg: "request:fail -2:net::ERR_FAILED")
好家伙, 来看看报错报错如下: 请求发送部分,代码如下: uni.request({ url: self.serverUrl + "/getRealName", meth ...
matrox的RAP4G4C12 CXP采集卡软件安装
Hello-FPGA info@hello-fpga.cOM matrox的RAP4G4C12 CXP采集卡软件安装目录 matrox的RAP4G4C12 CXP采集卡软件安装 4 1 前言 4 2 ...
【Azure Redis 缓存】当使用Azure Redis 集群服务时候，发生了Moved的几点分析
问题描述当使用Azure Redis 集群服务时候,发生了Moved的几点分析问题分析 1. 关于 Moved 问题,原因有可能是内存碎片整理,从而引起Redis发生failover. 2. ...

Dynamic ReLU：微软推出提点神器，可能是最好的ReLU改进 | ECCV 2020