一.空洞卷积 空洞卷积是是为了解决基于FCN思想的语义分割中,输出图像的size要求和输入图像的size一致而需要upsample,但由于FCN中使用pooling操作来增大感受野同时降低分辨率,导致upsample无法还原由于pooling导致的一些细节信息的损失的问题而提出的.为了减小这种损失,自然需要移除pooling层,因此空洞卷积应运而生. 所谓空洞卷积,有一种理解就是在卷积核中注入空洞(即0),注入的空洞的数量由参数dilation决定,以 卷积核为例,dilation=2即在卷积核…
英文原文: Dilated Convolution 简单来说,扩张卷积只是运用卷积到一个指定间隔的输入.按照这个定义,给定我们的输入是一个2维图片,扩张率 k=1 是通常的卷积,k=2 的意思是每个输入跳过一个像素,k=4 的意思是跳过 3 个像素.最好看看下面这些 k 值对应的图片. 下面的图片表示了在 2 维数据上的扩张卷积.红点表示输入到此例中的 3x3 滤波器的数据点,绿色区域表示这些输入中每一个所捕获的感受野 (receptive field). 感受野是一个在初始的输入上,通过每个输…
Receptive field 可中译为“感受野”,是卷积神经网络中非常重要的概念之一. 我个人最早看到这个词的描述是在 2012 年 Krizhevsky 的 paper 中就有提到过,当时是各种不明白的,事实上各种网络教学课程也都并没有仔细的讲清楚“感受野”是怎么一回事,有什么用等等.直到我某天看了 UiO 的博士生 Dang Ha The Hien写了一篇非常流传甚广的博文:A guide to receptive field arithmetic for Convolutional Ne…
在机器视觉领域的深度神经网络中有一个概念叫做感受野,用来表示网络内部的不同位置的神经元对原图像的感受范围的大小.神经元之所以无法对原始图像的所有信息进行感知,是因为在这些网络结构中普遍使用卷积层和pooling层,在层与层之间均为局部相连(通过sliding filter).神经元感受野的值越大表示其能接触到的原始图像范围就越大,也意味着他可能蕴含更为全局.语义层次更高的特征:而值越小则表示其所包含的特征越趋向于局部和细节.因此感受野的值可以大致用来判断每一层的抽象层次. 那么这个感受野要如何计…
Dilated Convolutions,中文一般称为空洞卷积或者扩张卷积,是一种改进的图像卷积方法. 扩张卷积工作示意图如下: 图a是普通的卷积,感受野是3*3,相当于扩充dilation=0 图b是扩张卷积,感受野是7*7,dilation=2 图c是扩张卷积,感受野是15*15,dilation=4  扩张卷积中多了一个扩充率参数(dilation rate),用来控制扩张(空洞填充)的大小,扩充率参数越大,同等卷积核大小对应的感受野越大.扩充卷积对普通卷积的改进就是为了获得更大的感受野.…
CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量.我下面会对近几年一些具有变革性的工作进行简单盘点,从这些充满革新性的工作中探讨日后的CNN变革方向. 注:水平所限,下面的见解或许有偏差,望大牛指正.另外只介绍其中具有代表性的模型,一些著名的模型由于原理相同将不作介绍,若有遗漏也欢迎指出. 一.卷积只能在同一组进行吗?-- Group convolution Group convolution 分组卷积,最早在AlexN…
Understanding the Effective Receptive Field in Deep Convolutional Neural Networks 理解深度卷积神经网络中的有效感受野 Abstract摘要 We study characteristics of receptive fields of units in deep convolutional networks. The receptive field size is a crucial issue in many vis…
从最开始的卷积层,发展至今,卷积已不再是当初的卷积,而是一个研究方向.在反卷积这篇博客中,介绍了一些常见的卷积的关系,本篇博客就是要梳理这些有趣的卷积结构. 阅读本篇博客之前,建议将这篇博客结合在一起阅读,想必会有更深的理解.另外,不管是什么类型的卷积,我们都把它理解成一种运算操作. Group convolution Group convolution是最早应用在2012年Alexnet的双GPU架构模型中,相当于把channel这一维度均分到两个GPU,进行分组卷积.如图所示: 这篇论文是:…
CNN 大概是目前 CV 界最火爆的一款模型了,堪比当年的 SVM.从 2012 年到现在,CNN 已经广泛应用于CV的各个领域,从最初的 classification,到现在的semantic segmentation, object detection,instance segmentation,super resolution 甚至 optical flow 都能看的其身影.还真是,无所不能. 虽然 CNN 的应用可以说是遍地开花,但是细究起来,可以看到 CNN 的基本模型还是万变不离其宗…
Receptive Field Block Net for Accurate and Fast Object Detection 作者:Songtao Liu, Di Huang*, and Yunhong Wang Beijing Advanced Innovation Center for Big Data and Brain Computing Beihang University, Beijing 100191, China fliusongtao, dhuang, yhwangg@bu…