文章地址： https://blog.csdn.net/u014380165/article/details/71667916

论文：Aggregated Residual Transformations for Deep Neural Networks

PyTorch代码：https://github.com/miraclewkf/ResNeXt-PyTorch

这是一篇发表在2017CVPR上的论文，介绍了ResNet网络的升级版：ResNeXt。下面介绍我看这篇论文时候做的笔记，和大家一起分享该模型。

作者提出 ResNeXt 的主要原因在于：传统的要提高模型的准确率，都是加深或加宽网络，但是随着超参数数量的增加（比如channels数，filter size等等），网络设计的难度和计算开销也会增加。因此本文提出的
ResNeXt 结构可以在不增加参数复杂度的前提下提高准确率，同时还减少了超参数的数量（得益于子模块的拓扑结构一样，后面会讲）。

作者在论文中首先提到VGG，VGG主要采用堆叠网络来实现，之前的 ResNet 也借用了这样的思想。然后提到 Inception 系列网络，简单讲就是 split-transform-merge 的策略，但是 Inception 系列网络有个问题：网络的超参数设定的针对性比较强，当应用在别的数据集上时需要修改许多参数，因此可扩展性一般。

于是重点来了，作者在这篇论文中提出网络 ResNeXt，同时采用 VGG 堆叠的思想和 Inception 的 split-transform-merge 思想，但是可扩展性比较强，可以认为是在增加准确率的同时基本不改变或降低模型的复杂度。这里提到一个名词cardinality，原文的解释是the
size of the set of transformations，如下图 Fig1 右边是 cardinality=32 的样子，这里注意每个被聚合的拓扑结构都是一样的(这也是和 Inception 的差别，减轻设计负担)

附上原文比较核心的一句话，点明了增加 cardinality 比增加深度和宽度更有效，这句话的实验结果在后面有展示：

当然还有一些数据证明 ResNeXt 网络的优越性，例如原文中的这句话：In particular, a 101-layer ResNeXt is able to achieve better accuracy than ResNet-200 but has only 50% complexity.

Table1 列举了 ResNet-50 和 ResNeXt-50 的内部结构，另外最后两行说明二者之间的参数复杂度差别不大。

接下来作者要开始讲本文提出的新的 block，举全连接层（Inner product）的例子来讲，我们知道全连接层的就是以下这个公式：

再配上这个图就更容易理解其splitting，transforming和aggregating的过程。

然后作者的网络其实就是将其中的 wixi替换成更一般的函数，这里用了一个很形象的词：Network
in Neuron，式子如下：

其中C就是 cardinality，Ti有相同的拓扑结构（本文中就是三个卷积层的堆叠）。

然后看看fig 3。这里作者展示了三种相同的 ResNeXt blocks。fig3.a 就是前面所说的aggregated residual transformations。 fig3.b 则采用两层卷积后 concatenate，再卷积，有点类似 Inception-ResNet，只不过这里的 paths 都是相同的拓扑结构。fig 3.c采用的是grouped
convolutions，这个 group 参数就是 caffe 的 convolusion 层的 group 参数，用来限制本层卷积核和输入 channels 的卷积，最早应该是 AlexNet 上使用，可以减少计算量。这里 fig 3.c 采用32个 group，每个 group 的输入输出 channels 都是4，最后把channels合并。这张图的 fig3.c 和 fig1 的左边图很像，差别在于fig3.c的中间 filter 数量（此处为128，而fig 1中为64）更多。作者在文中明确说明这三种结构是严格等价的，并且用这三个结构做出来的结果一模一样，在本文中展示的是
fig3.c 的结果，因为 fig3.c 的结构比较简洁而且速度更快。

这个表2主要列举了一些参数，来说明 fig1 的左右两个结构的参数复杂度差不多。第二行的d表示每个path的中间channels数量，最后一行则表示整个block的宽度，是第一行C和第二行d的乘积。

在实验中作者说明ResNeXt和ResNet-50/101的区别仅仅在于其中的block，其他都不变。贴一下作者的实验结果：相同层数的ResNet和ResNeXt的对比：（32*4d表示32个paths，每个path的宽度为4，如fig3）。实验结果表明ResNeXt和ResNet的参数复杂度差不多，但是其训练误差和测试误差都降低了。

另一个实验结果的表格，主要说明增加Cardinality和增加深度或宽度的区别，增加宽度就是简单地增加filter channels。第一个是基准模型，增加深度和宽度的分别是第三和第四个，可以看到误差分别降低了0.3%和0.7%。但是第五个加倍了Cardinality，则降低了1.3%，第六个Cardinality加到64，则降低了1.6%。显然增加Cardianlity比增加深度或宽度更有效。

接下来这个表一方面证明了residual connection的有效性，也证明了aggregated transformations的有效性，控制变量的证明方式，比较好理解。

因此全文看下来，作者的核心创新点就在于提出了 aggregrated transformations，用一种平行堆叠相同拓扑结构的blocks代替原来 ResNet 的三层卷积的block，在不明显增加参数量级的情况下提升了模型的准确率，同时由于拓扑结构相同，超参数也减少了，便于模型移植。另外该算法目前只有Torch版本。

文章来源： https://www.cnblogs.com/lillylin/p/6799173.html

Saining——【arXiv2017】Aggregated Residual Transformations for Deep Neural Networks

作者和相关链接

作者

论文下载
代码下载

主要思想

要解决的问题是什么？

　　对于ResNet，VGG，Inception等网络，需要由一些重复的building block堆叠而成，而这些building block的滤波器个数，大小等不能任意设置，需要人工调整。由于其中有很多超参数需要调整，而且在不同的vision task甚至是不同的dataset上参数不能直接共享需要进行个性化定制，因此，这种需要为一定task或者dataset定制的module虽然效果好，但通用性太差。这篇文章介绍了一种新的building block，可以用来替换ResNet的building block，新的模型称为ResNeXt。ResNeXt的最大优势在于整个网络的building block都是一样的，不用在每个stage里再对每个building block的超参数进行调整，只用一个building block，重复堆叠即可形成整个网络。实验结果表明ResNeXt比ResNet在同样模型大小的情况下效果更好。

解决思路？

　　将ResNet的blcok（如图Figure 1的左图所示）换成ResNeXt的block（如图Figure 1的右图所示），实际上是将左边的64个卷积核分成了右边32条不同path，每个path有4个卷积核，最后的32个path将输出向量直接pixel-wise相加（所有通道对应位置点相加），再与Short Cut相加

Figure 1. Left: A block of ResNet [13]. Right: A block of ResNeXt with cardinality = 32, with roughly the same complexity. A layer is shown as (# in channels, filter size, # out channels)

Cardinality和Bottleneck

　　这篇文章提出了一种新的衡量模型容量（capacity，指的是模型拟合各种函数的能力）。在此之前，模型容量有宽度（width)和高度(height)这两种属性，本文提出的“Cardinality”指的是网络结构中的building block的变换的集合大小（the size of the set of transformation）。如图Figure 2所示，（a）、（b）、（c）三种结构是等价的，本文用的是图（c）。实际上Cardinality指的就是Figure 2（b）中path数或Figure 2（c）中group数，即每一条path或者每一个group表示一种transformation，因此path数目或者group个数即为Cardinality数。Bottleneck指的是在每一个path或者group中，中间过渡形态的feature map的channel数目（或者卷积核个数），如Figure 2（a）中，在每一条path中，对于输入256维的向量，使用了4个1*1*256的卷积核进行卷积后得到了256*4的feature map，即4个channel，每个channel的feature map大小为256维，因此，Bottleneck即为4。

Figure 2. Equivalent building blocks of ResNeXt. (a): Aggregated residual transformations, the same as Fig. 1 right. (b): A block equivalent to (a), implemented as early concatenation. (c): A block equivalent to (a,b), implemented as grouped convolutions [23]. Notations in bold text highlight the reformulation changes. A layer is denoted as (# input channels, filter size, # output channels).

ResNet和ResNeXt对比

网络结构对比

　　图Figure 2所示表示的depth=3的情况下ResNet和ResNeXt的building block的对比。

具体配置对比

　　ResNet-50和ResNeXt-50的building block的配置对比如Table 1所示，图中C=32即表示Cardinality=32，Bottleneck= 4，即如图Figure 2中所示。

Table 1. (Left) ResNet-50. (Right) ResNeXt-50 with a 32×4d template (using the reformulation in Fig. 3(c)). Inside the brackets are the shape of a residual block, and outside the brackets is the number of stacked blocks on a stage. “C=32” suggests grouped convolutions [23] with 32 groups. The numbers of parameters and FLOPs are similar between these two models.

模型大小计算

　　以图Figure 3为例，ResNet的参数个数为256 · 64 + 3 · 3 · 64 · 64 + 64 · 256 ≈ 70k 。

ResNeXt的参数个数为C · (256 · d + 3 · 3 · d · d + d · 256），其中，C表示Cardinality=32，d表示bottleneck=4，因此参数总数 ≈ 70k 。

Figure 3. Left: A block of ResNet [13]. Right: A block of ResNeXt with cardinality = 32, with roughly the same complexity. A layer is shown as (# in channels, filter size, # out channels)

实验结果对比
- 证明ResNeXt比ResNet更好，而且Cardinality越大效果越好

Table 2. Ablation experiments on ImageNet-1K. (Top): ResNet-50 with preserved complexity (∼4.1 billion FLOPs); (Bottom): ResNet-101 with preserved complexity ∼7.8 billion FLOPs). The error rate is evaluated on the single crop of 224×224 pixels.

- 证明增大Cardinality比增大模型的width或者depth效果更好

Table 3. Comparisons on ImageNet-1K when the number of FLOPs is increased to 2× of ResNet-101’s. The error rate is evaluated on the single crop of 224×224 pixels. The highlighted factors are the factors that increase complexity.

[Network Architecture]ResNext论文笔记（转）的更多相关文章

[Network Architecture]Xception 论文笔记(转)
文章来源论文:Xception: Deep Learning with Depthwise Separable Convolutions 论文链接:https://arxiv.org/abs/161 ...
论文笔记系列-Neural Network Search ：A Survey
论文笔记系列-Neural Network Search :A Survey 论文笔记 NAS automl survey review reinforcement learning Bayesia ...
论文笔记：CNN经典结构2（WideResNet，FractalNet，DenseNet，ResNeXt，DPN，SENet）
前言在论文笔记:CNN经典结构1中主要讲了2012-2015年的一些经典CNN结构.本文主要讲解2016-2017年的一些经典CNN结构. CIFAR和SVHN上,DenseNet-BC优于ResN ...
【论文笔记】Malware Detection with Deep Neural Network Using Process Behavior
[论文笔记]Malware Detection with Deep Neural Network Using Process Behavior 论文基本信息会议: IEEE(2016 IEEE 40 ...
论文笔记： Dual Deep Network for Visual Tracking
论文笔记: Dual Deep Network for Visual Tracking 2017-10-17 21:57:08 先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. ...
Face Aging with Conditional Generative Adversarial Network 论文笔记
Face Aging with Conditional Generative Adversarial Network 论文笔记 2017.02.28 Motivation: 本文是要根据最新的条件产 ...
论文笔记《Maxout Networks》 && 《Network In Network》
论文笔记 <Maxout Networks> && <Network In Network> 发表于 2014-09-22 | 1条评论出处 maxo ...
论文笔记系列-Auto-DeepLab:Hierarchical Neural Architecture Search for Semantic Image Segmentation
Pytorch实现代码:https://github.com/MenghaoGuo/AutoDeeplab 创新点 cell-level and network-level search 以往的NAS ...
论文笔记之：Dueling Network Architectures for Deep Reinforcement Learning
Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper 摘要:本文的贡献点主要是在 DQN ...

随机推荐

nodejs(三)上之express
express 简介 Express 是一个简洁而灵活的 node.js Web应用框架, 提供了一系列强大特性帮助你创建各种 Web 应用,和丰富的 HTTP 工具. 使用 Express 可以快速 ...
转：Java多线程学习（吐血超详细总结）
版权声明:本文为博主林炳文Evankaka原创文章,转载请注明出处http://blog.csdn.net/evankaka 目录(?)[+] 林炳文Evankaka原创作品.转载请注明出处http: ...
Yii框架2.0的模块
模块是个独立的软件单元,也是又控制器,视图,模型组成的,也可以有自己的布局.但他必须属于某个应用下,不能独立存在. 其中模块的控制器,视图和应用的控制器和视图使用基本相同,不作赘述,下面说说模块的使用 ...
Robberies---hdu2955（概率dp，01背包）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2955 题目给了每个银行的钱和被抓的概率,由于要抢尽量多的钱,所以要保证尽量不被抓,而抢多个银行之后不被 ...
Linux文件操作相关命令
1.创建文件夹: [root@izuf6ih01h8fzeziddwkfdz sm]# mkdir a 创建一个名为a的文件夹 2.创建文件: [root@izuf6ih01h8fzeziddwkfd ...
solr 查询
1.常用查询参数说明 q - 查询字符串,必须的. fl - 指定返回那些字段内容,用逗号或空格分隔多个. start - 返回第一条记录在完整找到结果中的偏移位置,0开始,一般分页用. rows - ...
STL: fill,fill_n,generate,generate_n
fill Assigns the same new value to every element in a specified range. template<class ForwardIter ...
基于java的网络爬虫框架(实现京东数据的爬取，并将插入数据库)
原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平 ...
PKU 2506 Tiling(递推+高精度||string应用)
题目大意:原题链接有2×1和2×2两种规格的地板,现要拼2×n的形状,共有多少种情况,首先要做这道题目要先对递推有一定的了解.解题思路:1.假设我们已经铺好了2×(n-1)的情形,则要铺到2×n则只能 ...
持续（集成-->交付-->部署）
软件的开发工作的大致流程编码 -> 构建 -> 集成 -> 测试 -> 交付 -> 部署由上图可知「持续集成(Continuous Integration)」.「持续 ...

[Network Architecture]ResNext论文笔记（转）