url: https://arxiv.org/abs/1506.02025
year:2015

blog:
https://kevinzakka.github.io/2017/01/10/stn-part1/
https://kevinzakka.github.io/2017/01/18/stn-part2/

code:
https://github.com/kevinzakka/spatial-transformer-network

Introduce

卷积神经网络定义了一类特别强大的模型,但仍然缺乏对输入数据进行空间不变的能力。在这项工作中,引入了一个新的可学习模块,即空间变换器(Spatial Transformer),它允许对网络内的数据进行明确的空间操作。 这种可微分模块可以插入到现有的卷积体系结构中,使神经网络能够主动进行特征图的空间变换,无需对优化过程进行任何额外的监督或修改。文中展示了STN 的使用可以使模型学习到对平移,缩放,旋转和更通用的变形的不变性,从而在几个基准测试和包含许多变换的任务中产生了SOTA 的性能。

Architecture

Localisation Network: 用于生成仿射变换的参数
Grid Generator: 输出 Feature Map 的网格坐标是固定的, 但是每个坐标上的值是多少呢? 为了解决这个问题, 首先, 我们需要找到输出 Feature Map 与输入 Feature Map 坐标之间的映射关系, 找到映射关系后, 那么输出Feature Map某个坐标的值由对应输入Feature Map的坐标上的值来填充, 如下图所示(看图即可, 不用管文字)

Sampler: 由于从输出 Feature Map 网格坐标映射到输入 Feature Map上的坐标值可能是小数, 如下图. 那么输出 Feature Map 在该坐标点上的值由对应输入 Feature Map 上坐标周围的四个点决定, 一般采用双线性差值的方式

双线性差值公式如下

Experiments

Distorted MNIST

Details

Street View House Numbers Details

All networks are trained from scratch with SGD and dropout, with randomly initialized weights, except for the regression layers of spatial transformers which are initialized to predict the identity transform.

(STCNN Single): a spatial transformer immediately following the input
(ST-CNN Multi): where the localization networks are all two layer fully connected networks with 32 units per layer

key value
base learning rate 1e-2
learning rate for localization network a tenth of the base learning rate
weight decay 5e-4
dropout 0.5
conv[N, w, s, p] conv[batch_size, window, stride, padding]
max[s] a s × s max-pooling layer with stride s
fc[N] a fully connected layer with N units

CNN-baseline
conv[48,5,1,2]-max[2]-
conv[64,5,1,2]-conv[128,5,1,2]-max[2]-
conv[160,5,1,2]-conv[192,5,1,2]-max[2]-
conv[192,5,1,2]-conv[192,5,1,2]-max[2]-
conv[192,5,1,2]-fc[3072]-fc[3074]-fc[3074]

localizaton network
conv[32,5,1,2]-max[2]-conv[32,5,1,2]-fc[32]-fc[32]

Fine-Grained Classification Details

Thought

当前动作识别中, 有些检测框框的并不准, 而且一些动作不需要关注全局信息就可以判断, 将 STN 当做特征检测器使用.

就是使用来说,

  1. Localisation Network 的学习率设置很重要, 太大容易不收敛, 推荐为主网络的学习率 1e-3到 1e-5之间.
  2. Localisation Network不要用 imagenet pretrain 的参数初始化, 没有随机初始化的容易收敛而且性能也差些, 猜测原因是 pretrain 的参数关注的是抽象的语义特征, 而仿射变换参数的预测关注的几何位置特征, 二者不匹配
  3. 文中 Localisation Network 的卷积核设置都比较大

STN(Spatial Transformer Networks)的更多相关文章

  1. 深度学习方法(十二):卷积神经网络结构变化——Spatial Transformer Networks

    欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.机器学习技术感兴趣的同学加入. 今天具体介绍一个Google ...

  2. 论文笔记:空间变换网络(Spatial Transformer Networks)

    2015, NIPS Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu Google DeepMind 为什么提出( ...

  3. (转载)理解Spatial Transformer Networks

    理解Spatial Transformer Networks 转载于:知乎-SIGAI 书的购买链接 书的勘误,优化,源代码资源 获取全文PDF请查看:理解Spatial Transformer Ne ...

  4. [论文理解] Spatial Transformer Networks

    Spatial Transformer Networks 简介 本文提出了能够学习feature仿射变换的一种结构,并且该结构不需要给其他额外的监督信息,网络自己就能学习到对预测结果有用的仿射变换.因 ...

  5. Spatial Transformer Networks(空间变换神经网络)

    Reference:Spatial Transformer Networks [Google.DeepMind]Reference:[Theano源码,基于Lasagne] 闲扯:大数据不如小数据 这 ...

  6. spatial transformer networks 这篇论文

    大致看了看这个paper, 很novel. 我的观点: 在traditional convolutional neural netwoks 中,我们通常会depend 于 extracting fea ...

  7. stn,spatial transformer network总结

    对整篇paper的一个总结:https://blog.csdn.net/xbinworld/article/details/69049680 github:1.https://github.com/D ...

  8. Spatial Transformer Networks

    参考:http://blog.csdn.net/xbinworld/article/details/69049680 论文的关键在理解这句话: 先通过V中坐标(xtarget,ytarget)以此找到 ...

  9. Spatial Transformer Network

    https://blog.csdn.net/yaoqi_isee/article/details/72784881 Abstract: 作者说明了CNN对于输入的数据缺乏空间变换不变形(lack of ...

随机推荐

  1. unittest---unittest简单介绍

    说起python的单元测试,第一反应肯定就会是unittest,unittest作为python的标准库,很优秀,也被广泛的用到各个项目,但是你们知道吗?python的单元测试并不只有这一个,还有个p ...

  2. 【机器学习基础】交叉熵(cross entropy)损失函数是凸函数吗?

    之所以会有这个问题,是因为在学习 logistic regression 时,<统计机器学习>一书说它的负对数似然函数是凸函数,而 logistic regression 的负对数似然函数 ...

  3. [洛谷P1972][题解][SDOI2009]HH的项链

    别碰我! 自己还是太蒟了…… 看了好久,最后抄参考题解打出来的…… 前面的可能影响后面的,所以按照询问右端点排序 这时候维护一个前缀和数组就可以了, 那么问题又来了,去重? 可以这样,从前往后枚举,如 ...

  4. tomcat在centos7能启动不显示

    首先查看启动日志,日志显示成功启动,java路径也对,没有问题. 日志目录路径为$(tomcat)/logs/catalina.log 查看命令为:tail -300f catalina.log 然后 ...

  5. jQuery-文件上传问题解决

    后端要求文件上传需传参数为二进制流,用form-data方式传递,如下图所示: 为了满足该输入参数要求,上传代码如下: <input type="file" id=" ...

  6. Python 从入门到进阶之路(一)

    人生苦短,我用 Python. Python 无疑是目前最火的语言之一,在这里就不再夸他的 NB 之处了,本着对计算机编程的浓厚兴趣,便开始了对 Python 的自学之路,并记录下此学习记录的心酸历程 ...

  7. Thymeleaf常用语法:HTML属性设置

    使用Thymeleaf的属性来设置HTML属性.(1)使用th:attr属性可以修改原来HTML节点的属性:(2)th:attr属性可以同时设置多个属性:(3)每一个HTML属性都有对应的Thymel ...

  8. Django使用xadmin集成富文本编辑器Ueditor(方法二)

    一.xadmin的安装与配置1.安装xadmin,其中第一种在python3中安装不成功,推荐第二种或者第三种 方式一:pip install xadmin 方式二:pip install git+g ...

  9. 利用Flask中的werkzeug.security模块加密

    1.这种加密方式的原理:加密时混入一段"随机"字符串(盐值)再进行哈希加密.即使 密码相同,如果盐值不同,那么哈希值也是不一样的.现在网站开发中主要是运 用这种加密方法. 2.这个 ...

  10. CUDA 编程相关;tensorflow GPU 编程;关键知识点记录;CUDA 编译过程;NVCC

    本文章主要是记录,cuda 编程过程中遇到的相关概念,名字解释和问题:主要是是用来备忘: cuda PTX :并行线程执行(Parallel Thread eXecution,PTX)代码是编译后的G ...