0. Paper link
1. Overview
2. Depthwise Separable Convolution
- 2.1 architecture
- 2.2 computational cost
3. Network Structure
4. Width Multiplier: Thinner Models
5. Resolution Multiplier: Reduced Representation
Experiments

0. Paper link

1. Overview

MobileNets是一种基于深度可分割卷积的轻量流线型结构，引进了两个简单的全局超参数在延迟与准确率之间达到了平衡，并且超参数让model builder可以按照不同的应用场景的限制去选择合适大小的模型，网络的主要贡献是把传统的卷积拆成了“deepwise convolution”与“pointwise convolution”来减少卷积过程的计算量与参数数量，同时利用了两个超参数来改变了网络的宽度与输入图片的分辨率。文章做的实验也比较好，是一篇值得学习各方面得文章，不仅仅是他的网络结构。

2. Depthwise Separable Convolution

2.1 architecture

MobileNet的网络结构基于Depthwise Separable Convolution，它把传统的卷积操作拆成了两部分，一部分是Depthwise convolution，即对输入的每个channel使用一个卷积核，来达到对每一层做convolution的操作。另一部分是pointwise convolution，利用1 × 1卷积把Depthwise convolution的输出组合起来，从而达到传统convolution的效果，具体可以看下图：

2.2 computational cost

对于一个传统的卷积操作：假设输入与输出的feature map都是$D_F × D_F × M$，卷积核为$D_K × D_K × M × N$，其中$D_F$与$D_K$是尺寸（作者假设输入等于输出并且都是正方形，实际网络模型可以处理任何大小与长宽比），M是通道数，N是卷积核的个数。
传统卷积操作如下（加padding）：
\[
\mathbf{G}_{k, l, n} = \sum_{i, j, m} \mathbf{K}_{i, j, m, n} · \mathbf{F}_{k+i-1, l+j-1, m}
\]
传统卷积computational cost 如下：
\[D_K · D_K · M · N · D_F · D_F\]
depthwise convolution计算如下：
\[
\hat{\mathbf{G}}_{k, l, m} = \sum_{i, j}\hat{\mathbf{K}}_{i, j, m} · \mathbf{F}_{k+i-1, l+j-1, m}
\]
depthwise convolution的computational cost如下：
\[
D_K · D_K · M · D_F · D_F
\]
所以Depthwise Separable convolution cost：
\[
D_K · D_K · M · D_F · D_F + M · N · D_F · D_F
\]
他们之间computational cost的比例为：
\[
\frac{D_K · D_K · M · D_F · D_F + M · N · D_F · D_F}{D_K · D_K · M · N · D_F · D_F} = \frac{1}{N} + \frac{1}{D^{2}_{K}}
\]

3. Network Structure

MobileNet除了第一层是全卷积其他层的卷积都是使用Depthwise Separable convolutions，除了最后一层FC层数值直接送到softmax层之外，所有层后面都跟着BN层以及ReLU激活函数，一个average pooling层在FC层之前把空间卷积减为1。
下图为 Depthwise Separable convolution的结构：

下表为一个MobileNet的整体结构：

以下为文中的一些具体实行细节，自己经验不多，直接翻译来增加一些知识储备。

非结构化的稀疏矩阵操作通常不比密集矩阵运算快，除非是非常稀疏的矩阵。我们的模型结构将几乎全部的计算复杂度放到了1x1卷积中。这可以通过高度优化的通用矩阵乘法（GEMM）功能来实现。通常卷积由GEMM实现，但需要在称为im2col的内存中进行初始重新排序，以将其映射到GEMM。这个方法在流行的Caffe包中正在使用。1x1的卷积不需要在内存中重新排序而可以直接被GEMM（最优化的数值线性代数算法之一）实现。MobileNet在1x1卷积花费了95%计算复杂度，也拥有75%的参数（见表二）。几乎所有的额外参数都在全连接层。

下图为不同层的参数量：

使用类似于InceptionV3的异步梯度下降的RMSprop，MobileNet模型在TensorFlow中进行训练。然而，与训练大模型相反，我们较少地使用正则化和数据增加技术，因为小模型不容易过拟合。当训练MobileNets时，我们不使用sideheads或者labelsmoothing，通过限制croping的尺寸来减少图片扭曲。另外，我们发现重要的是在depthwise滤波器上放置很少或没有重量衰减（L2正则化），因为它们参数很少。

4. Width Multiplier: Thinner Models

加入一个超参数Width Multiplier $\alpha$来使得模型更小更快，用来对网络中的每一层进行“瘦身”（thin）。输入的通道$M$变为$\alpha M$输出的通道$N$变为$\alpha N$，因此加上Width Multiplier的cost为：
\[{D_K · D_K · \alpha M · D_F · D_F + \alpha M · \alpha N · D_F · D_F}\]
其中 $\alpha \in (0, 1]$,Width multiplier有减少计算复杂度和参数数量（$\alpha ^ 2$）的作用。

5. Resolution Multiplier: Reduced Representation

加入第二个超参数resolution multiplier $\rho$来统一减少输入图片跟中间每一层的特征。现在Depthwise Separable convolution 的计算量如下：
\[
D_K · D_K · \alpha M · \rho D_F · \rho D_F + \alpha M · \alpha N · \rho D_F · \rho D_F
\]
其中 $\rho \in (0, 1]$ 通常网络的输入像素设为224， 192， 160， 128.另外 ,resolution multiplier 也有减少计算复杂度和参数数量（$\rho ^ 2$）的作用。

Experiments

下图比较了MoilbeNet全卷积与Depthwise Separable convolution的性能，可以发现仅仅在准确率低了1%左右，参数却少很多

下面比较了 “浅层”网络与“瘦”网络的性能

下面实验在固定 $\rho$ 改变 $\alpha$来观察在ImageNet上的准确率变化

下面实验在固定$\alpha$改变$\rho$来观察在ImageNet上的准确率变化

下面实验比较了随着计算量增大准确率的变化

下面实验比较了 $\alpha \in \{1, 0.75, 0.5, 0.25\}$ $\rho \in \{224, 192, 160, 128\}$一共16个模型的实验性能

下面实验比较了MobileNet与VGG GoogLeNet 之间的准确、计算量与参数

下面实验比较了smaller MobileNet与Squeezenet AlexNet 之间的准确、计算量与参数

下面实验比较了各版本MobileNet与inception V3在细粒度分类方面的准确、计算量与参数

下面实验比较了各版本MobileNet与其他网络在目标检测方面的准确、计算量与参数

【网络结构】MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications论文解析的更多相关文章

深度学习论文翻译解析（十七）：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
论文标题:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 论文作者:Andrew ...
【论文翻译】MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 论文链接:https://arxi ...
[论文理解] MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications Intro MobileNet 我 ...
[论文阅读] MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications (MobileNet)
论文地址:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 本文提出的模型叫Mobi ...
论文笔记——MobileNets(Efficient Convolutional Neural Networks for Mobile Vision Applications)
论文地址:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications MobileNet由Go ...
Paper | MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
目录 1. 故事 2. MobileNet 2.1 深度可分离卷积 2.2 网络结构 2.3 引入两个超参数 3. 实验本文提出了一种轻量级结构MobileNets.其基础是深度可分离卷积操作. M ...
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
1. 摘要作者提出了一系列应用于移动和嵌入式视觉的称之为 MobileNets 的高效模型,这些模型采用深度可分离卷积来构建轻量级网络. 作者还引入了两个简单的全局超参数来有效地权衡时延和准确率,以 ...
深度学习论文翻译解析（六）：MobileNets：Efficient Convolutional Neural Networks for Mobile Vision Appliications
论文标题:MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Appliications 论文作者:Andrew ...
【MobileNet-V1】-2017-CVPR-MobileNets Efficient Convolutional Neural Networks for Mobile Vision Applications-论文阅读
2017-CVPR-MobileNets Efficient Convolutional Neural Networks for Mobile Vision Applications Andrew H ...

随机推荐

python open-falcon docker.WEB developers---flask,---django.
http://www.verydemo.com/demo_c281_i2477.html (python Gevent – 高性能的Python并发框架) http://www.django-rest ...
ui-router 视图嵌套时指定二级视图显示默认页面
当跳转到user页面时,右边的uiview是为空的,要点击了左侧的导航才能插入模板,如何在路由中设置二级视图的默认显示页面呢? app.config(function($stateProvider, ...
getResource()和getResourceAsStream以及路径问题(转)
用JAVA获取文件,听似简单,但对于很多像我这样的新人来说,还是掌握颇浅,用起来感觉颇深,大常最经常用的,就是用JAVA的File类,如要取得c:/test.txt文件,就会这样用File file ...
Ckeditor事件绑定
最近有个需求是要在点击CKeditor的时候触发某个判断的事件.试了一些方法都不可行,自己写的onclick时间都会被编辑器屏蔽.可以对对象加载完成绑定事件代码如下. CKEDITOR.instanc ...
LeetCode_Search in Rotated Sorted Array
题目: Suppose a sorted array is rotated at some pivot unknown to you beforehand. (i.e., 0 1 2 4 5 6 7 ...
B. Mike and Fun---cf548B（暴力求解）
题目链接:http://codeforces.com/problemset/problem/548/B 有一个n*m的矩阵,里面只有0和1,现在有Q个改变,每次都把(x,y)这点变为相反的点(0变1, ...
apt-get tips
1.通过apt-get安装指定版本的软件 apt-get install <package name>=<version> 2.通过apt-cache列举所有可获取的版本 ap ...
ORM之基础操作进阶
一.外键自关联(一对多) 1.建表 # 评论表 class Comment(models.Model): id = models.AutoField(primary_key=True) content ...
maven+springmvc+spring+mybatis
一.项目搭建 1)创建maven项目选择apache的maven-archetype-webapp 填入groupID : 例如 com.mracale artifactId :例如 shoppin ...
JavaScript和jQuery的学习
还有12天就要回学校了,我的假期计划还能实现吗?在这12天里,需要把JavaScript和jQuery学完.我知道这两个技术对于前端网页开发非常重要.前期把HTML和CSS学完了,学的不是特别深,只是 ...

【网络结构】MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications论文解析