STN(Spatial Transformer Networks)
url: https://arxiv.org/abs/1506.02025
year:2015
blog:
https://kevinzakka.github.io/2017/01/10/stn-part1/
https://kevinzakka.github.io/2017/01/18/stn-part2/
code:
https://github.com/kevinzakka/spatial-transformer-network
Introduce
卷积神经网络定义了一类特别强大的模型,但仍然缺乏对输入数据进行空间不变的能力。在这项工作中,引入了一个新的可学习模块,即空间变换器(Spatial Transformer),它允许对网络内的数据进行明确的空间操作。 这种可微分模块可以插入到现有的卷积体系结构中,使神经网络能够主动进行特征图的空间变换,无需对优化过程进行任何额外的监督或修改。文中展示了STN 的使用可以使模型学习到对平移,缩放,旋转和更通用的变形的不变性,从而在几个基准测试和包含许多变换的任务中产生了SOTA 的性能。
Architecture

Localisation Network: 用于生成仿射变换的参数
Grid Generator: 输出 Feature Map 的网格坐标是固定的, 但是每个坐标上的值是多少呢? 为了解决这个问题, 首先, 我们需要找到输出 Feature Map 与输入 Feature Map 坐标之间的映射关系, 找到映射关系后, 那么输出Feature Map某个坐标的值由对应输入Feature Map的坐标上的值来填充, 如下图所示(看图即可, 不用管文字)

Sampler: 由于从输出 Feature Map 网格坐标映射到输入 Feature Map上的坐标值可能是小数, 如下图. 那么输出 Feature Map 在该坐标点上的值由对应输入 Feature Map 上坐标周围的四个点决定, 一般采用双线性差值的方式


双线性差值公式如下

Experiments
Distorted MNIST

Details
Street View House Numbers Details

All networks are trained from scratch with SGD and dropout, with randomly initialized weights, except for the regression layers of spatial transformers which are initialized to predict the identity transform.
(STCNN Single): a spatial transformer immediately following the input
(ST-CNN Multi): where the localization networks are all two layer fully connected networks with 32 units per layer
key | value |
---|---|
base learning rate | 1e-2 |
learning rate for localization network | a tenth of the base learning rate |
weight decay | 5e-4 |
dropout | 0.5 |
conv[N, w, s, p] | conv[batch_size, window, stride, padding] |
max[s] | a s × s max-pooling layer with stride s |
fc[N] | a fully connected layer with N units |
CNN-baseline
conv[48,5,1,2]-max[2]-
conv[64,5,1,2]-conv[128,5,1,2]-max[2]-
conv[160,5,1,2]-conv[192,5,1,2]-max[2]-
conv[192,5,1,2]-conv[192,5,1,2]-max[2]-
conv[192,5,1,2]-fc[3072]-fc[3074]-fc[3074]
localizaton network
conv[32,5,1,2]-max[2]-conv[32,5,1,2]-fc[32]-fc[32]
Fine-Grained Classification Details

Thought
当前动作识别中, 有些检测框框的并不准, 而且一些动作不需要关注全局信息就可以判断, 将 STN 当做特征检测器使用.
就是使用来说,
- Localisation Network 的学习率设置很重要, 太大容易不收敛, 推荐为主网络的学习率 1e-3到 1e-5之间.
- Localisation Network不要用 imagenet pretrain 的参数初始化, 没有随机初始化的容易收敛而且性能也差些, 猜测原因是 pretrain 的参数关注的是抽象的语义特征, 而仿射变换参数的预测关注的几何位置特征, 二者不匹配
- 文中 Localisation Network 的卷积核设置都比较大
STN(Spatial Transformer Networks)的更多相关文章
- 深度学习方法(十二):卷积神经网络结构变化——Spatial Transformer Networks
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.机器学习技术感兴趣的同学加入. 今天具体介绍一个Google ...
- 论文笔记:空间变换网络(Spatial Transformer Networks)
2015, NIPS Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu Google DeepMind 为什么提出( ...
- (转载)理解Spatial Transformer Networks
理解Spatial Transformer Networks 转载于:知乎-SIGAI 书的购买链接 书的勘误,优化,源代码资源 获取全文PDF请查看:理解Spatial Transformer Ne ...
- [论文理解] Spatial Transformer Networks
Spatial Transformer Networks 简介 本文提出了能够学习feature仿射变换的一种结构,并且该结构不需要给其他额外的监督信息,网络自己就能学习到对预测结果有用的仿射变换.因 ...
- Spatial Transformer Networks(空间变换神经网络)
Reference:Spatial Transformer Networks [Google.DeepMind]Reference:[Theano源码,基于Lasagne] 闲扯:大数据不如小数据 这 ...
- spatial transformer networks 这篇论文
大致看了看这个paper, 很novel. 我的观点: 在traditional convolutional neural netwoks 中,我们通常会depend 于 extracting fea ...
- stn,spatial transformer network总结
对整篇paper的一个总结:https://blog.csdn.net/xbinworld/article/details/69049680 github:1.https://github.com/D ...
- Spatial Transformer Networks
参考:http://blog.csdn.net/xbinworld/article/details/69049680 论文的关键在理解这句话: 先通过V中坐标(xtarget,ytarget)以此找到 ...
- Spatial Transformer Network
https://blog.csdn.net/yaoqi_isee/article/details/72784881 Abstract: 作者说明了CNN对于输入的数据缺乏空间变换不变形(lack of ...
随机推荐
- 关于tomcat对编码不正确的url参数报错的解决
按照规范,url参数必须使用限定字符,其它字符需要进行编码,用像js的encodeurlcomponent函数. 在IE和360浏览器的兼容模式,不会自动对url的参数进行编码,会导致tomcat报错 ...
- 如何写一个Python万能装饰器,既可以装饰有参数的方法,也可以装饰无参数方法,或者有无返回值都可以装饰
Python中的装饰器,可以有参数,可以有返回值,那么如何能让这个装饰器既可以装饰没有参数没有返回值的方法,又可以装饰有返回值或者有参数的方法呢?有一种万能装饰器,代码如下: def decorate ...
- pytorch中的nn.CrossEntropyLoss()
nn.CrossEntropyLoss()这个损失函数和我们普通说的交叉熵还是有些区别 x是模型生成的结果,class是对应的label 具体代码可参见如下 import torch import t ...
- Codeforces Round #602 (Div. 2, based on Technocup 2020 Elimination Round 3
A,有多个线段,求一条最短的线段长度,能过覆盖到所又线段,例如(2,4)和(5,6) 那么我们需要4 5连起来,长度为1,例如(2,10)(3,11),用(3,10) 思路:我们想一下如果题目说的是最 ...
- import com.sun.org.apache.xml.internal.security.utils.Base64问题
———————————————— 版权声明:本文为CSDN博主「荚小白」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明.原文链接:https://blog.csd ...
- C# LINQ Join两个表连接,关联多个条件的写法
1.sql语句: select * from Users u join Teachers t on u.UserID==t.TeacherID and u.Name=t.Name 2.linq写法: ...
- Java连接数据库 #07# MyBatis Generator简单例子
MyBatis Generator是一个可以帮助我们免去手写实体类&接口类以及XML的代码自动生成工具. 下面,通过一个简单的例子介绍MyBatis Generator如何使用. 大体流程如下 ...
- Python中编写类的各种技巧和方法
简介 有关 Python 内编写类的各种技巧和方法(构建和初始化.重载操作符.类描述.属性访问控制.自定义序列.反射机制.可调用对象.上下文管理.构建描述符对象.Pickling). 你可以把它当作一 ...
- PDF转换成DXF文件?PDF转DXF的操作方法
在CAD工作中,经常就需要将绘制完成的图纸文件的格式进行转换,那怎么将PDF文件转换成DXF格式的呢?具体要怎么来进行操作呢?本编教程小编就来教教大家具体操作方法,具体操作如下: 一.工具转换 推荐指 ...
- 在标准实体特殊消息上注册插件及Dynamics CRM 2015中计算字段的使用
关注本人微信和易信公众号: 微软动态CRM专家罗勇 ,回复157或者20151005可方便获取本文,同时可以在第一时间得到我发布的最新的博文信息,follow me! 前面的 插件系列博客教程 讲述了 ...