论文提出DRConv，很好地结合了局部共享的思想并且保持平移不变性，包含两个关键结构，从实验结果来看，DRConv符合设计的预期，在多个任务上都有不错的性能提升

来源：晓飞的算法工程笔记公众号

论文: Dynamic Region-Aware Convolution

论文地址：https://arxiv.org/pdf/2003.12243.pdf

Introduction

目前主流的卷积操作都在空间域进行权值共享，而如果想得到更丰富的信息，只能通过增加卷积的数量来实现，这样不仅计算低效，也会带来网络优化困难。与主流卷积不同，local conv在不同的像素位置使用不同的权值，这样能够高效地提取丰富的信息，主要应用在人脸识别领域，但local conv不仅会带来与特征图大小相关的参数量，还会破坏平移不变性。

考虑到以上两种卷积的优劣，论文提出了DRConv(Dynamic Region-Aware Convolution)，DRConv的结构如图1，首先通过标准卷积来生成guided feature，根据guided feature将空间维度分成多个区域，卷积核生成模块$G(\cdot)$根据输入图片动态生成每个区域对应的卷积核。DRConv能够可学习地为不同的像素位置匹配不同的卷积核，不仅具有强大的特征表达能力，还可以保持平移不变性。由于卷积核是动态生成的，能比local conv减少大量的参数，而整体计算量几乎和标准卷积一致。

论文的主要贡献如下：

提出DRConv，不仅具有强大的语义表达能力，还能很好地维持平移不变性。
巧妙的设计了可学习guided mask的反向传播，明确区域共享的规则(region-sharing-pattern)，并根据损失函数回传的梯度进行更新。
只需简单地替换，DRConv就能在图片分类，人脸识别，目标检测和语义分割等多个任务上达到很好的性能。

Our Apporach

Dynamic Region-Aware Convolution

对于标准卷积，定义输入$X\in \mathbb{R}^{U\times V\times C}$，空间维度$S\in \mathbb{R}^{U\times V}$，输出$Y\in \mathbb{R}^{U\times V\times O}$，权重$W\in \mathbb{R}^C$，输出的每个channel的计算如公式1，$*$为二维卷积操作。

对于基础的local conv，定义非共享权重$W\in \mathbb{R}^{U\times V\times C}$，输出的每个channel计算如公式2，其中$W_{u,v,c}^{(o)}$表示位置$(u,v)$上的独立非共享卷积核，即卷积在特征图上移动时，每次更换不同的卷积核。

结合以上公式，定义guided mask$M={S_0, \cdots,S_{m-1}}$用来表示空间维度划分的$m$个区域，$M$根据输入图片的特征进行提取，每个区域$S_t(t\in [0, m-1])$仅使用一个共享的卷积核。定义卷积核集$W=[W_0,\cdots,W_{m-1}]$，卷积核$W_t \in \mathbb{R}^C$对应于区域$S_t$。输出的每个channel的计算如公式3，即卷积在特征图上移动时，每次根据guided mask更换对应的卷积核。

从上面的描述可以看到，DRConv包含两个主要部分：

使用可学习的guided mask来将空间维度划分为多个区域，如图1所示，guided mask中相同颜色的像素归为同一区域，从语义的角度来看，即将语义相似的特征归为统一区域。
对于每个共享区域，使用卷积核生成模块来生成定制的卷积核来进行常规的2D卷积操作，定制的卷积核能够根据输入图片的重要特征自动地进行调节。

Learnable guided mask

作为DRConv的重要部分，guided mask决定了卷积核在空间维度上的分布，该模块由损失函数指导优化，从而能够适应输入的空间信息变化，从而改变卷积核的分布。

对于包含$m$个channel的$k\times k$DRConv，定义$F$为guided feature，$M$为guided mask，$M$上的每个位置$(u,v)$的值计算如公式4，函数$argmax(\cdot)$输出最大值的下标，$F_{u,v}$为位置$(u,v)$上的guided feature向量，所以$M$的值为$[0, m-1]$，用来指示该位置对应的卷积下标。

为了让guided mask可学习，必须得到用来生成guided feature的权值的梯度，但由于$argmax(\cdot)$的使用导致guided feature的梯度无法计算，所以论文设计了类似的梯度。

Forward propagation

根据公式4获得guided mask，根据公式5得到每个位置$(u,v)$得到卷积核$\tilde{W}_{u,v}$，其中$W_{M_{u,v}}$是$G(\cdot)$生成的卷积核集$[W_0, \cdots, W_{m-1}]$中的一个，$M_{u,v}$是guided feature在位置$(u,v)$上值最大的channel下标，通过这种方式来$m$个卷积核与所有位置的关系，将空间像素分为$m$个组。使用相同卷积核的像素包含相似的上下文信息，主要由于具有平移不变性标准卷积将这些信息传递给了guided feature。

Backward propagation

为了使梯度得到回传，首先用$\hat{F}$来代替guided mask的one-hot表示，计算如公式6所示，在channel维度上进行$softmax(\cdot)$，期望$\hat{F}_{u,v}^j$能尽可能地接近0和1，这样$\hat{F}_{u,v}^j$与guided mask的one-hot表示将非常相似。公式5可以看作是卷积核集$[W_0,\cdots,W_{m-1}]$乘以$M_{u,v}$的one-hot表示，这里替换为$\hat{F}_{u,v}^j$。

$\hat{F}_{u,v}^j$的梯度计算如公式7，$\langle, \rangle $为点积，$\bigtriangledown_{\cdot} \mathcal{L}$表示guided mask对应loss函数的梯度，如图a，公式7近似于公式5的反向传播。

公式8为公式6的反向传播，$\odot$为逐元素相乘，如果不设计特殊的反向传播，SGD将不能对相关的参数进行优化，因为函数$argmax(\cdot)$是不可导的。因此，$softmax(\cdot)$是用来接近$argmax(\cdot)$，通过替换函数将梯度回传到guided feature，是的guided mask可学习。

Dynamic Filter: Filter generator module

在DRConv中，使用卷积核生成模块来生成不同区域的卷积核，由于不同图片的特征不同，在图片间共享的卷积核不能高效地提取其独有的特征，需要定制化的特征来专注不同图片的特性。

定义输入$X\in \mathbb{R}^{U\times V\times C}$，包含两层卷积的卷积核生成模块$G(\cdot)$，$m$个卷积$W=[W_0,\cdots,W_{m-1}]$，每个卷积仅用于区域$R_t$。如图b所示，为了获得$m$个$k\times k$卷积，先使用自适应平均池化将$X$下采样为$k\times k$，然后使用两个连续的$1\times 1$卷积，第一个使用$sigmoid(\cdot)$进行激活，第二个设定$group=m$，不使用激活。卷积核生成模块能够增强网络获取不同图片特性的能力，由于根据输入的特征生成卷积核，每个卷积核的关注点能够根据输入的特性进行自动地调整。

Experiments

Classification

Face Recognition

COCO Object Detection and Segmentation

Ablation Study

Visualization of dynamic guided mask

Different model size

Different region number

Different spatial size

CONCLUSION

论文提出DRConv，很好地结合了局部共享的思想并且保持平移不变性，包含两个关键结构，首先使用guided mask对特征图中的像素划分到不同的区域，其次使用卷积核生成模块动态生成区域对应的卷积核。从实验结果来看，DRConv符合设计的预期，特别是图3的guided mask的可视化结果，在多个任务上都有不错的性能提升。

如果本文对你有帮助，麻烦点个赞或在看呗～

更多内容请关注微信公众号【晓飞的算法工程笔记】

DRConv：旷视提出区域感知动态卷积，多任务性能提升 | CVPR 2020的更多相关文章

最近被旷视的YOLOX刷屏了！
目录论文主要信息文章概要背景 YOLOX-DarkNet53 实现细节 YOLOv3 baseline Decoupled head 实验思路 story Strong data augmen ...
ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet，优化场景理解
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕.届时,旷视首席科学家孙 ...
ECCV 2018 | 旷视科技提出GridFace：通过学习局部单应变换实现人脸校正
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕,旷视科技有多篇论文被此 ...
旷视等Oral论文提出GeoNet：基于测地距离的点云分析深度网络
基于网格曲面的几何拓扑信息可以为物体语义分析和几何建模提供较强的线索,但是,如此重要的连接性信息在点云中是缺失的.为此,旷视西雅图研究院首次提出一种全新的深度学习网络,称之为 GeoNet,可建模点云 ...
入职9月，旷视孙剑106分钟讲述CV创业科研的5大区别
雷锋网按:本文为旷视科技首席科学家孙剑日前在 CCF-ADL上做的题为<如何在大公司和创业公司做好计算机视觉研究>的分享,主要介绍了近期计算机视觉的发展现状,ResNet基本原理和设计,旷 ...
旷视MegEngine核心技术升级
旷视MegEngine核心技术升级 7 月 11 日,旷视研究院在 2020 WAIC · 开发者日「深度学习框架与技术生态论坛」上围绕 6 月底发布的天元深度学习框架(MegEngine)Beta ...
ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020
论文提出了结合注意力卷积的二叉神经树进行弱监督的细粒度分类,在树结构的边上结合了注意力卷积操作,在每个节点使用路由函数来定义从根节点到叶子节点的计算路径,结合所有叶子节点的预测值进行最终的预测,论文的 ...
旷视MegEngine网络搭建
旷视MegEngine网络搭建在基本概念中,介绍了计算图.张量和算子,神经网络可以看成一个计算图.在 MegEngine 中,按照计算图的拓扑结构,将张量和算子连接起来,即可完成对网络的搭建.M ...
旷视MegEngine基本概念
旷视MegEngine基本概念 MegEngine 是基于计算图的深度神经网络学习框架. 本文简要介绍计算图及其相关基本概念,以及它们在 MegEngine 中的实现. 计算图(Computation ...
旷视研究院Detection组负责人
http://www.skicyyu.org/ https://zhuanlan.zhihu.com/p/61910297 俞刚,旷视研究院Detection组负责人.2014年博士毕业于新加坡南洋理 ...

随机推荐

springboot中前端ajax如何给controller提交数组参数？
说明我有个需求,前端批量添加一堆商品明细.也就是说会有一个商品ID,然后一堆商品明细,多行. 如此一来,针对后端接口肯定是要以数组或列表方式接收这个商品明细数组了. 前端代码关键地方在于以form ...
Java I/O 教程（十二） OutputStreamWriter和InputStreamReader
OutputStreamWriter类 OutputStreamWriter是字符流到字节流的桥梁,字符写入其中后被指定字符集成字节. 字符集可自定义,或使用平台默认字符集. 推荐使用Buffered ...
优雅使用前端枚举Enum，符合国标的那种！
01.什么是枚举Enum? 枚举Enum是在多种语言中都有的一种数据类型,用于表示一组特定相关的常量数据集合,如性别(男.女).数据状态(可用.禁用).垂直对齐(顶端.居中.底部).星期等.特点是数据 ...
virtualenvwrapper管理虚拟环境
安装 pip install virtualenvwrapper-win 基本使用 1.创建虚拟环境 mkvirtualenv my_env 使用这个命令,就会在你c盘的当前用户下创建一个Env的文件 ...
【LeetCode贪心#01】分饼干，贪心算法入门（入了但是还没完全入）
分饼干力扣题目链接(opens new window) 假设你是一位很棒的家长,想要给你的孩子们一些小饼干.但是,每个孩子最多只能给一块饼干. 对每个孩子 i,都有一个胃口值 g[i],这是能让孩子 ...
如何在矩池云使用 Poetry 管理项目环境
官网介绍:Poetry is a tool for dependency management and packaging in Python. It allows you to declare th ...
用BootstrapBlazor组件制作新增Customer Order的页面
1.在Shared目录下新建OrderCreateView.razor文件: 2.在OrderCreateView.razor里用最简单的表格准备好布局 3.准备好BootstrapBlazor的组件 ...
【Azure 存储服务】Azure Storage Account 下的 Table 查询的性能调优
问题描述 Azure Storage Account 下的 Table 查询的性能调优? 问题解答因为Azure Storage Table服务(表服务) 与常规的关系型数据库不一样(例如:MySQ ...
【Azure 应用服务】App Service / Function App 修改系统时区为中国时区的办法(Azure中所有服务的默认时间都为UTC时间，转换为北京时间需要+8小时)
问题描述在Azure的 App Service / Function App 服务中,如果是在Windows系统中,可以通过添加Application Setting来转换为中国时间(WEBSITE ...
50条MAUI踩坑记
1. 目录结构: (1)_imports.razor是一个全局using namespace的地方 (2)Platforms下的代码,虽然都放在同一个项目下,但是Platforms\Android下的 ...

DRConv：旷视提出区域感知动态卷积，多任务性能提升 | CVPR 2020