图像处理论文详解 | Deformable Convolutional Networks | CVPR | 2017

忽逢桃林 2024-11-09 23:37:25 原文

文章转自同一作者的微信公众号：【机器学习炼丹术】

论文名称：“Deformable Convolutional Networks”
论文链接：https://arxiv.org/abs/1703.06211

0 前言

首先理解：

deformable Convolution可变卷积针对的对象是卷积本身，因此膨胀卷积，3D卷积都可以用可变卷积的形式
本篇文章讲解理论和论文，我还没有用上这个可变卷积测试效果，因为PyTorch好像还没有封装这个卷积方式，有点麻烦。所以我计划下一篇文章结合github上已经有的pytorch复现的可变卷积来做一个简单的测试。
本来我是在学轮廓检测算法的，看到了一个SOTA的算法叫做deep snake，然后看了半天代码，发现里面嵌套了DCN，DLA等多个算法，所以就从头开始学了。

1 论文概述

论文中作者最大的贡献为：

提出了可变卷积，可变卷积网络为Deformable ConvNet（DCN）。
用同样的原理提出了可变池化层，叫做deformable ROI pooling。
这两个模块可以非常简单的用在其他网络结构中，并且不会增加很多的参数，但是效果还是不错的。（论文把这个方法用在了主流模型中）。

这个核心贡献在于，为什么卷积过程中卷积核一定要是正方形的？我的检测目标各种形状都有，为什么卷积核一定要是正方形的呢？

因此，这里的卷积核不再是正方形了，而是可以通过梯度下降更新的参数了：

a图就是最基本的卷积核，b就是可变卷积的卷积核，c和d是可变卷积的特殊情况。听起来不难吧，原理确实非常的简单。

2 实现原理

上图是表示可变卷积过程的。大概看一眼这个图，不难发现这种结构似乎和SEnet有点类似。在下一篇的代码实战中再考虑如何实现这个过程把。

泛泛地说的话，就是这个特征图，再额外的经过一个卷积层，生成一个offset的结果，然后把这个offset和这个特征图融合。

3 实验结果

论文中提到，在特征提取网络的后面3层使用可变卷积的效果比较好。

上图是在实际任务中，deformable convnets学习到的采样点，我认为这是一种非常有意思的可解释性的体现。

上表中最后三行体现了这个可变卷积的效果，确实是不错，确实有一定提升，那么这种可变卷积对与参数量的影响大吗？

可以看到，这个参数的影戏那个微乎其微，运行时间也基本差不多。我决定等我复现了这个可变卷积之后，我在以后的模型中都要用这个试试能不能有提升。（奇怪的奇技淫巧又增加了）。

大概就这么多，从理论上看，这个deformable convolution不难，关键是如何实现，希望我在复现的过程上不会太坎坷。

参考文章：

图像处理论文详解 | Deformable Convolutional Networks | CVPR | 2017的更多相关文章

pytorch实现 | Deformable Convolutional Networks | CVPR | 2017
文章转载自微信公众号:[机器学习炼丹术],请支持原创. 这一篇文章,来讲解一下可变卷积的代码实现逻辑和可视化效果.全部基于python,没有C++.大部分代码来自:https://github.com ...
目标检测论文阅读：Deformable Convolutional Networks
https://blog.csdn.net/qq_21949357/article/details/80538255 这篇论文其实读起来还是比较难懂的,主要是细节部分很需要推敲,尤其是deformab ...
论文阅读笔记三十八：Deformable Convolutional Networks（ECCV2017）
论文源址:https://arxiv.org/abs/1703.06211 开源项目:https://github.com/msracver/Deformable-ConvNets 摘要卷积神经网络 ...
深度学习方法（十三）：卷积神经网络结构变化——可变形卷积网络deformable convolutional networks
上一篇我们介绍了:深度学习方法(十二):卷积神经网络结构变化--Spatial Transformer Networks,STN创造性地在CNN结构中装入了一个可学习的仿射变换,目的是增加CNN的旋转 ...
Deformable Convolutional Networks
1 空洞卷积 1.1 理解空洞卷积在图像分割领域,图像输入到CNN(典型的网络比如FCN)中,FCN先像传统的CNN那样对图像做卷积再pooling,降低图像尺寸的同时增大感受野,但是由于图像分割预 ...
C#数字图像处理算法详解大全
原文:C#数字图像处理算法详解大全 C#数字图像处理算法详解大全网址http://dongtingyueh.blog.163.com/blog/#m=0 分享一个专业的图像处理网站(微像素),里面有 ...
VGGNet论文翻译-Very Deep Convolutional Networks for Large-Scale Image Recognition
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zi ...
Attention is all you need 论文详解（转）
一.背景自从Attention机制在提出之后,加入Attention的Seq2Seq模型在各个任务上都有了提升,所以现在的seq2seq模型指的都是结合rnn和attention的模型.传统的基于R ...
[论文理解] Learning Efficient Convolutional Networks through Network Slimming
Learning Efficient Convolutional Networks through Network Slimming 简介这是我看的第一篇模型压缩方面的论文,应该也算比较出名的一篇吧 ...

随机推荐

全面解析RayFire的动态对象与静态对象
我们在日常使用RayFire的过程中,接触得比较多的应该就是RayFire的对象设置了.RayFire的对象包含了动态对象.静态对象与休眠对象,其中动态对象.静态对象可以结合动力学.运动学概念设置动作 ...
ElasticSearch 分词器，了解一下
这篇文章主要来介绍下什么是 Analysis ,什么是分词器,以及 ElasticSearch 自带的分词器是怎么工作的,最后会介绍下中文分词是怎么做的. 首先来说下什么是 Analysis: 什么是 ...
symfony框架中使用service
在config文件里面的service.yml写入自己service 1 chat.group_list: //service的名字 2 class: Chat\Service\GroupListSe ...
Eclipse的环境配置
1.想要配置Eclipse的环境,就要先下载Eclipse,并安装它,不会下载安装的小伙伴可以点击下面给的链接,里面有我写的详细的教程,这里就不重复了 Eclipse下载与安装:https://blo ...
Meetings S 题解
题目描述题目链接有两个牛棚位于一维数轴上的点 \(0\) 和 \(L\) 处.同时有 \(N\) 头奶牛位于数轴上不同的位置(将牛棚和奶牛看作点).每头奶牛 \(i\) 初始时位于某个位置 \(x ...
「刷题笔记」DP优化-状压-EX
棋盘需要注意的几点: 题面编号都是从0开始的,所以第1行实际指的是中间那行对\(2^{32}\)取模,其实就是\(unsigned\ int\),直接自然溢出啥事没有棋子攻击范围不会旋转首先, ...
为什么 redo log 具有 crash-safe 的能力，是 binlog 无法替代的？
昨天在复习 MySQL 日志相关的知识,学的东西过一段时间后就会遗忘,遗忘后再重新思考,往往会有新的收获.想到几个问题,把它记录下来. 为什么 redo log 具有 crash-safe 的能力,而 ...
Python中判断字符串是否为数字、字母、标识符、浮点数、大小写、可打印的方法
1.判断s是否都是大写字母:s.isupper(): 2.判断s是否都是小写字母:s.islower(): 3.判断s中的每个单词首字母是否都是大写字母且其他位置无大写字母:s.istitle(),要 ...
PyQt（Python+Qt）学习随笔：QTableView中数据行高和列宽的调整方法
老猿Python博文目录老猿Python博客地址一.概述在QTableView中,除了采取缺省的间隔显示行和列的数据外,还可以通过带调整数据的行高和列宽. 二.列宽调整方法调整数据行列宽的方法 ...
基础篇——怎么使用PowerDesigner进行数据库初始化
1.使用PowerDesigner打开设计好的 .pdm文件 2.点击工具栏中的Database-->Database Generation-->Preview,就可以看到生成的创建数据库 ...