ECCV 2018 | Bi-Real net：超XNOR-net 10%的ImageNet分类精度

这项工作由香港科技大学，腾讯 AI lab，以及华中科技大学合作完成，目的是提升二值化卷积神经网络（1-bit CNN）的精度。虽然 1-bit CNN 压缩程度高，但是其当前在大数据集上的分类精度与对应的实值 CNN 相比有较大的精度下降。本文提出的 Bi-Real net 用 shortcut 传递网络中已有的实数值，从而提高二值化网络的表达能力，并且改进了现有的 1-bit CNN 训练方法。试验结果表明，18 层 Bi-Real net 在 imagenet 数据集上达到 56.4％的 top-1 分类精度，比 baseline XNOR Net 相对高了 10%。并且更深的 34 层 Bi-Real net 达到了 62.4％的 top-1 分类精度。

地址：https://arxiv.org/pdf/1808.00278.pdf

深度卷积神经网络（CNN）由于精度高在视觉任务中已经有非常广泛的应用，但是 CNN 的模型过大限制了它在很多移动端的部署。模型压缩也因此变得尤为重要。在模型压缩方法中，将网络中的权重和激活都只用+1 或者-1 来表示将可以达到理论上的 32 倍的存储空间的节省和 64 倍的加速效应。由于它的权重和激活都只需要用 1bit 表示，因此极其有利于硬件上的部署和实现。

然而现有的二值化压缩方法在 imagenet 这样的大数据集上会有较大的精度下降。我们认为，这种精度的下降主要是有两方面造成的。1. 1-bit CNN 的表达能力本身很有限，不如实数值的网络。2. 1-bit CNN 在训练过程中有导数不匹配的问题导致难以收敛到很好的精度。

针对这两个问题，我们分别提出了解决方案。

1. 通过分析我们发现，尽管输入 1-bit 卷积层的参数和激活值都是二值化的，但经过 xnor 和 bitcout 之后，网络内部会产生实数值，但是这个实数值的输出如果经过下一层 1-bit 卷积就又会被二值化，造成极大的信息丢失。

通过打印网络内部的由激活值组成的特征图也可以发现这一个问题

左图是传统神经网络，连续灰度的特征图每次经过 1-bit 卷积的时候，都会被二值化。所以我们提出在特征图在被二值化之前，利用 shortcut 来传递这些实数值的特征图，这样就可以大大地保留网络中的信息量，提高网络的表达能力。

2. 除此之外，我们分析了原有的二值化网络的训练方法，发现原有训练方法在对于激活值的求导和对于参数的更新存在导数不匹配的问题。我们针对激活值的求导和参数更新问题分别提出了解决方案。

（1）在对激活值求导的时候，由于二值化激活值的 sign 函数不可导，所以在前人（Binary Net）采用的方法是利用 clip(-1,x,1) 的导数来拟合 sign 的导数，但是这样造成的效果就是，网络在正向计算 loss 的时候所看到的是一个以 sign 为非线性函数的网络，而在反向计算 gradients 的时候是根据一个以 clip 为非线性函数的网络进行计算的。由于 clip 函数与 sign 函数有差距，这种计算方式会带来所谓的导数值不匹配的问题。基于这个，我们提出用二阶拟合 sign 的 ApproxSign 的导数来作为 sign 的导数，从而缩小导数值的不匹配问题。这个带来了约 12% 的性能提升。

（2）而在对二值化参数进行更新的时候，由于二值化参数是离散的，导数值太小往往不足以改变它的符号，因此前人采用的方法是存储实数值的参数，在更新的时候将网络根据二值参数计算出来的导数更新实数值参数，在正向传播过程中，用 sign 将实数值参数二值化，得到更新后的二值化参数。

但是这样的更新方式的实质是，将对于二值化参数求得的导数值加在存储的实数值。而在将导数二值化的时候，sign 函数其实只考虑了所存储的实数参数的符号，而没有考虑存储使出参数的量级，由于一些训练上的考虑，实数值网络内部的参数值，往往集中在 0 附近，而直接把它二值化到+1 或者-1，会导致网络计算导数值所参考的参数和网络实际更新的参数有很大差距，使得网络难于收敛到较高精度。

基于这个观察，我们提出，在训练的时候，将网络中存储的实数值的量级计入考虑。

根据用实数值参数的绝对值平均值计算的标量乘以实数值参数的符号作为网络计算导数的二值化参数。这种方法大大缩小了二值化参数与网络内部存储的用于更新的实值参数之间的差距，达到 23% 的网络精度值相对提升。

而更加有意思的是，由于 BatchNorm 层的存在，这个帮助训练的标量，其实在正向传播的时候可以直接被 BatchNorm 层归一化。因此，在测试即部署训练好的二值化的网络到移动端的时候，并不需要这一实值标量。

（3）此外我们还提出了针对二值化网络的初始化方法。从二值化参数更新的方法里也可以看出，内部所存储的实数值代表了二值化参数能改变符号的可能性，因此初始化的实数值选取非常重要。之前的工作都是直接采用随机初始化（XnorNet）或者是直接用以 ReLU 为非线性函数的实数值网络初始化。我们发现，如果采用 Clip 函数替换 ReLU 函数来进行初始化，将进一步带来性能提升。

实验结果

从表中的比较可以看到, 本文提出的 Bi-Real net 比 state-of-the-art Xnor Net 精度由显著提升。

并且 Bi-Real net 比 Xnor net 需要更少的存储空间和计算资源。

ECCV 2018 | Bi-Real net：超XNOR-net 10%的ImageNet分类精度的更多相关文章

ECCV 2018 | 旷视科技提出GridFace：通过学习局部单应变换实现人脸校正
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕,旷视科技有多篇论文被此 ...
ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet，优化场景理解
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕.届时,旷视首席科学家孙 ...
ECCV 2018 | UBC&腾讯AI Lab提出首个模块化GAN架构，搞定任意图像PS组合
通常的图像转换模型(如 StarGAN.CycleGAN.IcGAN)无法实现同时训练,不同的转换配对也不能组合.在本文中,英属哥伦比亚大学(UBC)与腾讯 AI Lab 共同提出了一种新型的模块化多 ...
超好玩！10款神奇的字符图案 & 词汇云生成工具
在这里,我们推荐10款惊人的字符图案生成工具.词云可以定义为词频的图形表示,而字符图案发生器是一个把数据,如文字和标签在以视觉和吸引人的方式展示的简单的工具.这些生成工具具有不同的功能,其中包括不同的 ...
2018面向对象程序设计（Java）第10周学习指导及要求
2018面向对象程序设计(Java)第10周学习指导及要求(2018.11.1-2018.11.4) 学习目标理解泛型概念: 掌握泛型类的定义与使用: 掌握泛型方法的声明与使用: 掌握泛型接口的定 ...
ECCV 2018 目标检测 | IoU-Net：将IoU的作用发挥到极致
常见的目标检测算法缺少了定位效果的学习,IoU-Net提出IoU predictor.IoU-guided NMS和Optimization-based bounding box refinement ...
HHL论文及代码理解（Generalizing A Person Retrieval Model Hetero- and Homogeneously ECCV 2018）
行人再识别Re-ID面临两个特殊的问题: 1)源数据集和目标数据集类别完全不同 2)相机造成的图片差异因为一般来说传统的域适应问题源域和目标域的类别是相同的,相机之间的不匹配也是造成行人再识别数据集 ...
（转载）ECCV 2018：IBN-Net：打开域适应的新方式
(本文转自极视角) 本文由香港中文大学发表于ECCV2018,论文探索了IN和BN的优劣,据此提出的IBN-Net在语义分割的域适应任务上取得了十分显著的性能提升. 论文地址:https://arxi ...
ECCV 2018 | 给Cycle-GAN加上时间约束，CMU等提出新型视频转换方法Recycle-GAN
CMU 和 Facebook 的研究者联合进行的一项研究提出了一种新型无监督视频重定向方法 Recycle-GAN,该方法结合了时间信息和空间信息,可实现跨域转换,同时保留目标域的风格.相较于只关注空 ...

随机推荐

对抗网络之目标检测应用：A-Fast-RCNN
对抗网络之目标检测应用:A-Fast-RCNN 论文:A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection ...
HDU 2181 哈密顿绕行世界问题（DFS）
Problem Description 一个规则的实心十二面体,它的 20个顶点标出世界著名的20个城市,你从一个城市出发经过每个城市刚好一次后回到出发的城市. Input 前20行的第i行有3个数, ...
ubuntu vsftpd
With a bit of playing around I've managed to come up with a semi solution (not perfect but good enou ...
将整个文件夹推上github
/*游戏或者运动才能让我短暂的忘记心痛,现如今感觉学习比游戏和运动还重要——曾少锋*/ 首先你要有一个本地仓库和一个远程仓库(github中的仓库).git文件夹下面不能含有 git文件夹,如果有的话 ...
WCF 采用net.tcp协议实践(转)
概述与Socket相比,WCF真是爽得不得了,其基本指导思想为SOA——面向服务. 其基本配置在于ABC(Address,Binding,Contract),通常,只要这三个因素配置对了,那么,基本 ...
day41 mysql 学习练习题重要*****
MySQL 练习题[二1.表如下: 收获和注意点:***** #1 GROUP by 可以放到where s_id in ()条件局后边 GROUP BY s_id having 详见题12 #2 做 ...
smarty学习——内建函数部分
Smarty自带一些内建函数. 内建函数是模板语言的一部分. 用户不能创建名称和内建函数一样的自定义函数,也不能修改内建函数. 一.包含的内建函数 {$var=...}{append}{assign} ...
js 验证代码部分的简单实现
接上面的文章. 我们已经简单的设计了关于如何进行处理了,但是如何进行校验呢,代码也是比较简单的因为我们使用的是asp.net 简单并且功能强大. 我们同样使用的是HttpResponse,简单的模拟代 ...
socket、tcp/ip协议、udp协议
socket通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄,应用程序通常通过"套接字"向网络发出请求或者应答网络请求. socket起源于Un ...
module.exports用法
module.exports 对象是由模块系统创建的.在我们自己写模块的时候,需要在模块最后写好模块接口,声明这个模块对外暴漏声明内容,module.exports提供了暴漏接口的方法. 1.返回一个 ...

ECCV 2018 | Bi-Real net：超XNOR-net 10%的ImageNet分类精度

ECCV 2018 | Bi-Real net：超XNOR-net 10%的ImageNet分类精度的更多相关文章

随机推荐

热门专题