论文笔记 Network In Network

这篇论文思路简单、易实现、效果好，是一篇难得的佳作。从实现的角度理解，就是做了以下两个替换：

将线性卷积替换为多层感知机（某种程度上，线性卷积可以认为识一层感知机）。
将全连接层用global average pooling layer替换。

下面我们就来分析引入上述两个替换的妙处。首先分析第一个替换的妙处，替换的效果（图示如下）

论文中提到“The linear convolution is sufficient for abstraction when the instances of the latent concepts are linearly separable.”，然而现实太复杂，the instances of the latent concepts通常不是线性可分的。在这种情况下，通常有两种做法：一是，引入大量的linear convolution（以体量应对复杂现实）；二是，干脆寻找一个能够模拟任意复杂情形的“参数化函数”（以灵活性应对复杂现实）。

可以预见，如果你计算、存储资源充裕的话，你可以采取简单暴力的第一种情形；通常情况下，计算、存储资源受限，因此第二种做法更加接近现实一点（也更容易将算法植入到计算、存储资源有限的移动设备上，如手机）。下面的问题就是寻找所需的“参数化函数”。庆幸的是，多层感知机在某种程度上能够满足我们的需求，此外它能够与BP算法完美兼容（这篇论文选择的就是多层感知机）。这样的Mlpconv layer就可以作为深度网络的几个基本block，用以构建深度网络。

在CNN当中，随着层数的加深，我们得到的特征越来越抽象。这种抽象是以组合较低一层抽象特征得到的。从这个角度理解，如果在较低层就能够比之前对应层更抽象的特征，然后整个网络的输出抽象程度将会变得更高，这样高度抽象的特征对于分类、任务迁移都是有极大帮助的。

下面分析第二个替换的妙处

传统的CNN是将最后一层的卷积输出向量化，然后输入到全连接层，全连接层之后是常用的分类损失函数，如softmax。如果最后一层卷积输出特征维度过高、类别较多，那么这一块引入的参数量是很大的，这会造成网络过拟合（还好，目前有一些防止过拟合的手段，如dropout）。

“The idea is to generate one feature map for each corresponding category of the classification task in the last mlpconv layer. Instead of adding fully connected layers on top od the feature maps, we take the advantage of each feature map, and the resulting vector is fed directly into the softmax layer”，这样做的好处是，直接在类别与feature maps之间建立了联系，“The features maps can be easily interpreted as categories confidence maps”。此外，这里没有引入要学习的参数，也间接起到了防止过拟合的效果。

在Caffe框架下实现上述网络是一个很简单的事情，以在cifar10上的网络结果为例

layers {

  name: "conv1"

  type: CONVOLUTION

  bottom: "data"

  top: "conv1"

  blobs_lr:

  blobs_lr:

  weight_decay: .

  weight_decay: .

  convolution_param {

    num_output:

    pad:

    kernel_size:

    weight_filler {

      type: "gaussian"

      std: 0.05

    }

    bias_filler {

      type: "constant"

    }

  }

}

layers {

  name: "relu1"

  type: RELU

  bottom: "conv1"

  top: "conv1"

}

layers {

  name: "cccp1"

  type: CONVOLUTION

  bottom: "conv1"

  top: "cccp1"

  blobs_lr:

  blobs_lr:

  weight_decay:

  weight_decay:

  convolution_param {

    num_output:

    group:

    kernel_size:

    weight_filler {

      type: "gaussian"

      std: 0.05

    }

    bias_filler {

      type: "constant"

      value:

    }

  }

}

layers {

  name: "relu_cccp1"

  type: RELU

  bottom: "cccp1"

  top: "cccp1"

}

layers {

  name: "cccp2"

  type: CONVOLUTION

  bottom: "cccp1"

  top: "cccp2"

  blobs_lr:

  blobs_lr:

  weight_decay:

  weight_decay:

  convolution_param {

    num_output:

    group:

    kernel_size:

    weight_filler {

      type: "gaussian"

      std: 0.05

    }

    bias_filler {

      type: "constant"

      value:

    }

  }

}

layers {

  name: "relu_cccp2"

  type: RELU

  bottom: "cccp2"

  top: "cccp2"

}

两个kernel_size为1的卷积核实现的就是多层感知机的功能，全部的网络结果代码如下

name: "CIFAR10_full"

layers {

  name: "cifar"

  type: DATA

  top: "data"

  top: "label"

  data_param {

    source: "cifar-train-leveldb"

    batch_size:

  }

  include: { phase: TRAIN }

}

layers {

  name: "cifar"

  type: DATA

  top: "data"

  top: "label"

  data_param {

    source: "cifar-test-leveldb"

    batch_size:

  }

  include: { phase: TEST }

}

layers {

  name: "conv1"

  type: CONVOLUTION

  bottom: "data"

  top: "conv1"

  blobs_lr:

  blobs_lr:

  weight_decay: .

  weight_decay: .

  convolution_param {

    num_output:

    pad:

    kernel_size:

    weight_filler {

      type: "gaussian"

      std: 0.05

    }

    bias_filler {

      type: "constant"

    }

  }

}

layers {

  name: "relu1"

  type: RELU

  bottom: "conv1"

  top: "conv1"

}

layers {

  name: "cccp1"

  type: CONVOLUTION

  bottom: "conv1"

  top: "cccp1"

  blobs_lr:

  blobs_lr:

  weight_decay:

  weight_decay:

  convolution_param {

    num_output:

    group:

    kernel_size:

    weight_filler {

      type: "gaussian"

      std: 0.05

    }

    bias_filler {

      type: "constant"

      value:

    }

  }

}

layers {

  name: "relu_cccp1"

  type: RELU

  bottom: "cccp1"

  top: "cccp1"

}

layers {

  name: "cccp2"

  type: CONVOLUTION

  bottom: "cccp1"

  top: "cccp2"

  blobs_lr:

  blobs_lr:

  weight_decay:

  weight_decay:

  convolution_param {

    num_output:

    group:

    kernel_size:

    weight_filler {

      type: "gaussian"

      std: 0.05

    }

    bias_filler {

      type: "constant"

      value:

    }

  }

}

layers {

  name: "relu_cccp2"

  type: RELU

  bottom: "cccp2"

  top: "cccp2"

}

layers {

  name: "pool1"

  type: POOLING

  bottom: "cccp2"

  top: "pool1"

  pooling_param {

    pool: MAX

    kernel_size:

    stride:

  }

}

layers {

  name: "drop3"

  type: DROPOUT

  bottom: "pool1"

  top: "pool1"

  dropout_param {

    dropout_ratio: 0.5

  }

}

layers {

  name: "conv2"

  type: CONVOLUTION

  bottom: "pool1"

  top: "conv2"

  blobs_lr:

  blobs_lr:

  weight_decay: .

  weight_decay: .

  convolution_param {

    num_output:

    pad:

    kernel_size:

    weight_filler {

      type: "gaussian"

      std: 0.05

    }

    bias_filler {

      type: "constant"

    }

  }

}

layers {

  name: "relu2"

  type: RELU

  bottom: "conv2"

  top: "conv2"

}

layers {

  name: "cccp3"

  type: CONVOLUTION

  bottom: "conv2"

  top: "cccp3"

  blobs_lr:

  blobs_lr:

  weight_decay:

  weight_decay:

  convolution_param {

    num_output:

    group:

    kernel_size:

    weight_filler {

      type: "gaussian"

      std: 0.05

    }

    bias_filler {

      type: "constant"

      value:

    }

  }

}

layers {

  name: "relu_cccp3"

  type: RELU

  bottom: "cccp3"

  top: "cccp3"

}

layers {

  name: "cccp4"

  type: CONVOLUTION

  bottom: "cccp3"

  top: "cccp4"

  blobs_lr:

  blobs_lr:

  weight_decay:

  weight_decay:

  convolution_param {

    num_output:

    group:

    kernel_size:

    weight_filler {

      type: "gaussian"

      std: 0.05

    }

    bias_filler {

      type: "constant"

      value:

    }

  }

}

layers {

  name: "relu_cccp4"

  type: RELU

  bottom: "cccp4"

  top: "cccp4"

}

layers {

  name: "pool2"

  type: POOLING

  bottom: "cccp4"

  top: "pool2"

  pooling_param {

    pool: AVE

    kernel_size:

    stride:

  }

}

layers {

  name: "drop6"

  type: DROPOUT

  bottom: "pool2"

  top: "pool2"

  dropout_param {

    dropout_ratio: 0.5

  }

}

layers {

  name: "conv3"

  type: CONVOLUTION

  bottom: "pool2"

  top: "conv3"

  blobs_lr: .

  blobs_lr: .

  weight_decay: .

  weight_decay: .

  convolution_param {

    num_output:

    pad:

    kernel_size:

    weight_filler {

      type: "gaussian"

      std: 0.05

    }

    bias_filler {

      type: "constant"

    }

  }

}

layers {

  name: "relu3"

  type: RELU

  bottom: "conv3"

  top: "conv3"

}

layers {

  name: "cccp5"

  type: CONVOLUTION

  bottom: "conv3"

  top: "cccp5"

  blobs_lr:

  blobs_lr:

  weight_decay:

  weight_decay:

  convolution_param {

    num_output:

    group:

    kernel_size:

    weight_filler {

      type: "gaussian"

      std: 0.05

    }

    bias_filler {

      type: "constant"

      value:

    }

  }

}

layers {

  name: "relu_cccp5"

  type: RELU

  bottom: "cccp5"

  top: "cccp5"

}

layers {

  name: "cccp6"

  type: CONVOLUTION

  bottom: "cccp5"

  top: "cccp6"

  blobs_lr: 0.1

  blobs_lr: 0.1

  weight_decay:

  weight_decay:

  convolution_param {

    num_output:

    group:

    kernel_size:

    weight_filler {

      type: "gaussian"

      std: 0.05

    }

    bias_filler {

      type: "constant"

      value:

    }

  }

}

layers {

  name: "relu_cccp6"

  type: RELU

  bottom: "cccp6"

  top: "cccp6"

}

layers {

  name: "pool3"

  type: POOLING

  bottom: "cccp6"

  top: "pool3"

  pooling_param {

    pool: AVE

    kernel_size:

    stride:

  }

}

layers {

  name: "accuracy"

  type: ACCURACY

  bottom: "pool3"

  bottom: "label"

  top: "accuracy"

  include: { phase: TEST }

}

layers {

  name: "loss"

  type: SOFTMAX_LOSS

  bottom: "pool3"

  bottom: "label"

  top: "loss"

}

总结：这篇文章引入的改进网络结构的方式、global average pooling启发了后续很多算法，以后有时间再慢慢分析。

论文笔记 Network In Network的更多相关文章

论文笔记系列-Neural Network Search ：A Survey
论文笔记系列-Neural Network Search :A Survey 论文笔记 NAS automl survey review reinforcement learning Bayesia ...
论文笔记-Deep Affinity Network for Multiple Object Tracking
作者: ShijieSun, Naveed Akhtar, HuanShengSong, Ajmal Mian, Mubarak Shah 来源: arXiv:1810.11780v1 项目:http ...
论文笔记——N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning
论文地址:https://arxiv.org/abs/1709.06030 1. 论文思想利用强化学习,对网络进行裁剪,从Layer Removal和Layer Shrinkage两个维度进行裁剪. ...
【论文笔记】Malware Detection with Deep Neural Network Using Process Behavior
[论文笔记]Malware Detection with Deep Neural Network Using Process Behavior 论文基本信息会议: IEEE(2016 IEEE 40 ...
论文笔记： Dual Deep Network for Visual Tracking
论文笔记: Dual Deep Network for Visual Tracking 2017-10-17 21:57:08 先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. ...
Face Aging with Conditional Generative Adversarial Network 论文笔记
Face Aging with Conditional Generative Adversarial Network 论文笔记 2017.02.28 Motivation: 本文是要根据最新的条件产 ...
论文《Network in Network》笔记
论文:Lin M, Chen Q, Yan S. Network In Network[J]. Computer Science, 2013. 参考:关于CNN中1×1卷积核和Network in N ...
论文笔记《Maxout Networks》 && 《Network In Network》
论文笔记 <Maxout Networks> && <Network In Network> 发表于 2014-09-22 | 1条评论出处 maxo ...
[论文阅读笔记] Structural Deep Network Embedding
[论文阅读笔记] Structural Deep Network Embedding 本文结构解决问题主要贡献算法原理参考文献 (1) 解决问题现有的表示学习方法大多采用浅层模型,这可能不能 ...
[论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion
[论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion 本文结构解决问题主要贡献算法原理实验结果参考文献 (1 ...

随机推荐

wow.js中各种特效对应的类名
一.(页面在向下滚动的时候,有些元素会产生细小的动画效果.虽然动画比较小,但却能吸引你的注意.) 刚知道wow.js这个插件,之前访问别的网站下拉滚动条会出现各种效果感觉特别神奇,现在自己依葫芦画瓢也 ...
cookie方法封装及cookie缺点分析
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px Consolas; color: #4f5d66 } p.p2 { margin: 0.0px ...
Java命名默认规范
学习java的时候,命名的大小写经常弄混,所以在此总结一下java命名规范 1.project(项目名) 说法不一,暂定小写,eg:arraytest 2.包名小写,eg:package array ...
深入tornado中的ioLoop
本文所剖析的tornado源码版本为4.4.2 ioloop就是对I/O多路复用的封装,它实现了一个单例,将这个单例保存在IOLoop._instance中 ioloop实现了Reactor模型,将所 ...
codeforces 757F Team Rocket Rises Again
链接:http://codeforces.com/problemset/problem/757/F 正解:灭绝树. mdzz倍增lca的根节点深度必须是1..我因为这个错误调了好久. 我们考虑先求最短 ...
linux中移动光标
ctrl + e 光标移动到行尾 ctrl + a 光标移动到行首
（知识点）JavaScript继承
1)原型链 ①原型链示例 function Shape() { this.name = 'shape'; this.toString = function(){ return this.name; } ...
app性能测试【通过loadrunner录制】
随着智能手机近年来的快速增长,从游戏娱乐到移动办公的各式各样的手机APP软件渗透到我们的生活中,对于大型的手机APP测试不仅要关注它的功能性.易用性还要关注它的性能,最近发现LoadRunner12可 ...
Java的CLASSPATH
在JDK安装好后,要设置两个变量Path和Classpath,Path是操作系统要求的,这里不谈了,而classpath是Java虚拟机要求的这里做一个详细的解释. 一.classpath的作用 == ...
LNMP之编译安装PHP出现的问题
2010年以前,互联网公司最常用的Web服务组合就是LAMP(即Linux.Apache.MySQL.PHP),近几年随着Nginx Web服务的逐渐流行,又出现了新的Web服务环境组合--LNMP ...

论文笔记 Network In Network

论文笔记 Network In Network的更多相关文章

随机推荐

热门专题