https://www.jianshu.com/p/f9b015cc4514

https://github.com/hpi-xnor/BMXNet  BMXNet:基于MXNet的开源二值神经网络实现

Index

  • Introduction
  • Related Works
  • Binary Neural Networks
  • XNOR-Net
  • Conclusion

Introduction

神经网络模型的压缩是一个很有前景的方向。由于神经网络需要较大的计算量,目前来说,我们通常在服务器上对神经网络进行训练或是计算的。移动端的神经网络在断网的情况下就失去了作用。通过一些压缩神经网络的方法,我们能够缩小神经网络的规模,并且提高计算速度。这对于实现移动端人工智能来说很有意义。
本文基于< XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks>介绍了神经网络模型压缩的一些相关工作,以及二值化卷积神经网络BWN,还有XNOR-Net的工作原理。XNOR-Net的实现代码:[此处应有链接,等我写完初步的demo将会上传]。(由于Tensorflow暂时不支持bit操作,所以代码只作为研究用,并不能真正实现bit操作。)

Related Works

  • Shallow Networks浅层网络:用更浅的网络来表示训练好的网络。很多时候,神经网络会存在冗余的参数和层数,这个方法通过使用更浅的网络,达到相同的效果,减少参数加快计算。
  • Compressing pre-trained networks压缩训练好的模型:Deep Compression就是这样的方法。通过对模型参数进行剪枝,量化,哈夫曼编码等技巧,能够压缩模型。关于Deep Compression的介绍可以看我前几篇文章(文末有链接)。
  • Designing compact layers设计更简洁层: Residual layers就是一种压缩的手段。
  • Quantizing parameters量化参数:目前浮点数通常使用32bit表示,量化可以用更少的位数来表示参数,但是会损失一定精度。
  • Network binarization网络二值化:二值化是将网络完全使用+1, -1来表示,这样就可以用1bit来表示网络。Binary Weight Network 和XNOR-Net都是二值化的网络。网络二值化后,卷积可以表示为简单的加法减法,且可以大大减小计算时间。

Binary Neural Networks

Binary Neural Networks由Bengio团队在< BinaryNet: Training Deep Neural Networks with Weights and Activations Constrained to +1 or −1 >一文中提出。
其原理很简单:

 
BWN

其中I为Input输入,W为weight,B为二值化的weight,alpha为缩放因子。
由上式可知,一个kernel对输入进行卷积的结果,可以由二值化的weight对输入进行⊕后,再乘缩放因子得到。其中⊕表示没有乘法的卷积运算。
证明:

 
证明

由上式可知,J最小时,alpha和B有最优值。
展开一式:

 
证明

令c = WTW, n=BTB,得到:

 
证明

易得alpha和B的最优解:

 
证明
 
证明

可知B = Sign(W), alpha=L1norm(W)/n. 其中n=cwh,c,w,h分布为kernel的输入通道数,宽,高。

可以通过以下算法对网络进行训练:

 
Algorithm

值得注意的是,我们在前向计算时使用B和alpha,而在后向传播时使用实数W进行参数更新。这是由于梯度的量级通常很小,直接对B进行更新时,求导后值为0。
在网络中加入Batch Normalization可以提升网络性能。

XNOR-Net

XNOR-Net与BWN不同的地方在于,XNOR-Net不仅将kernel进行二值化,还将input二值化。
由于证明过程与BWN相似,在这里不进行累述。

 
Binarization

如上图,将输入进行二值化时,由于计算L1norm时存在很多冗余的计算,XNOR-Net采用了更有效的方式:将输入在channel维度计算norm得到A,用k(k为wh大小的卷积核,其值为1/wh)对A进行卷积得到K。
之后只需要将Sign(I)与Sign(W)进行卷积,再乘K和alpha即可。
由于Sign(I)和Sign(W)都是二值化的,卷积可以通过XNOR和bit-count表示。

 
结构

XNOR-Net的block表示如上图。

Conclusion

总的来说,神经网络压缩是一个很有前景的方向。目前存在的问题主要是精度损失的问题。文章中将AlexNet进行压缩后,精度损失了2.9%,这对于某些任务来说是不可接受的。其次在于现在很多硬件没有成熟的二值运算。
未来我可能会开源一个基于Tensorflow的神经网络压缩的代码。由于目前Tensorflow底层代码没有支持二值运算,所以里面使用的实际上还是浮点数。因此只能作为研究或者提取训练好的参数到其他平台。

Neural Networks compression系列文章包括:

作者:Efackw13
链接:https://www.jianshu.com/p/f9b015cc4514
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

XNOR-Net:二值化卷积神经网络的更多相关文章

  1. 二值化神经网络(BNN)基础学习(一)

    目录 1.简介 2.优点 3.基本原理 3.1 权重和激活值二值化[3] 3.2 乘法优化 3.3 权重和激活值更新 4.结论[3] 参考资料 1.简介 ​ 二值化神经网络,在浮点型(权重值和激活函数 ...

  2. Opencv实现图像的灰度处理,二值化,阀值选择

    前几天接触了图像的处理,发现用OPencv处理确实比較方便.毕竟是非常多东西都封装好的.可是要研究里面的东西,还是比較麻烦的,首先,你得知道图片处理的一些知识,比方腐蚀,膨胀,仿射,透射等,还有非常多 ...

  3. 深度学习实践-强化学习-bird游戏 1.np.stack(表示进行拼接操作) 2.cv2.resize(进行图像的压缩操作) 3.cv2.cvtColor(进行图片颜色的转换) 4.cv2.threshold(进行图片的二值化操作) 5.random.sample(样本的随机抽取)

    1. np.stack((x_t, x_t, x_t, x_t), axis=2)  将图片进行串接的操作,使得图片的维度为[80, 80, 4] 参数说明: (x_t, x_t, x_t, x_t) ...

  4. OpenCV图像的全局阈值二值化函数(OTSU)

    cv::threshold(GrayImg, Bw, 0, 255, CV_THRESH_BINARY | CV_THRESH_OTSU);//灰度图像二值化 CV_THRESH_OTSU是提取图像最 ...

  5. opencv二值化处理

    #include "stdafx.h"//对一张图片进行二值化处理 IplImage *pSrclmg =NULL;//载入的图片IplImage *pDeclmg =NULL;/ ...

  6. [iOS OpenCV的使用,灰度和二值化]

    看网上方法很多,但版本都不够新,我看了网上一些知识,总结了下,来个最新版Xcode6.1的. 最近主要想做iOS端的车牌识别,所以开始了解OpenCV.有兴趣的可以跟我交流下哈. 一.Opencv的使 ...

  7. java 图像灰度化与二值化

    转载:http://www.chinasb.org/archives/2013/01/5053.shtml 1: package org.chinasb.client; 2: 3: import ja ...

  8. OpenCV图像的二值化

    图像的二值化: 与边缘检测相比,轮廓检测有时能更好的反映图像的内容.而要对图像进行轮廓检测,则必须要先对图像进行二值化,图像的二值化就是将图像上的像素点的灰度值设置为0或255,这样将使整个图像呈现出 ...

  9. OpenCV中对图像进行二值化的关键函数——cvThreshold()。

    函数功能:采用Canny方法对图像进行边缘检测 函数原型: void cvThreshold( const CvArr* src, CvArr* dst, double threshold, doub ...

随机推荐

  1. [LeetCode] 647. 回文子串 ☆☆☆(最长子串、动态规划、中心扩展算法)

    描述 给定一个字符串,你的任务是计算这个字符串中有多少个回文子串. 具有不同开始位置或结束位置的子串,即使是由相同的字符组成,也会被计为是不同的子串. 示例 1: 输入: "abc" ...

  2. PHP提示 Notice: Undefined variable

    PHP提示Notice: Undefined variable,意思是:你的程序中有未定义的变量 为什么在其他地方好好的程序,换个环境报这个Notice,因为php.ini提醒级别设置的问题 场景复原 ...

  3. 关于header file、static、inline、variable hides的一点感想

    前言 先看一段代码 #ifndef _INLINE_H #define _INLINE_H template<typename T> static inline T my_max(T a, ...

  4. MySQL数据库扫盲篇

    MySQL数据库扫盲篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.   一.MySQL概述 1>.什么是MySQL MySQL是瑞典的MySQL AB公司开发的一个可用于各 ...

  5. 变长数组(variable-length array,VLA)(C99)

    处理二维数组的函数有一处可能不太容易理解,数组的行可以在函数调用的时候传递,但是数组的列却只能被预置在函数内部.例如下面这样的定义: #define COLS 4 int sum3d(int ar[] ...

  6. IPS检测

    华为IPS语法: https://isecurity.huawei.com/sec/web/ipsmanual.do IPS漏洞查询(例如搜索反弹shell): https://isecurity.h ...

  7. (MYSQL)回表查询原理,利用联合索引实现索引覆盖

    一.什么是回表查询? 这先要从InnoDB的索引实现说起,InnoDB有两大类索引: 聚集索引(clustered index) 普通索引(secondary index) InnoDB聚集索引和普通 ...

  8. Spring Cloud Eureka注册中心(快速搭建)

    Spring Cloud 详解Eureka注册中心@(微服务)[java|spring-cloud|eureka] Eureka 注册中心是入门Spring Cloud微服务架构的必学组件,是学习所有 ...

  9. mysql类似to_char()to_date()函数mysql日期和字符相互转换方法date_f

    mysql 类似to_char() to_date()函数mysql日期和字符相互转换方法 date_format(date,'%Y-%m-%d') -------------->oracle中 ...

  10. luoguP1120小木棍(POJ - 1011 )

     题意: 乔治有一些同样长的小木棍,他把这些木棍随意砍成几段,直到每段的长都不超过50,个数不超过65. 现在,他想把小木棍拼接成原来的样子,但是却忘记了自己开始时有多少根木棍和它们的长度. 给出每段 ...