论文阅读笔记十：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (DeepLabv2)(CVPR2016)

论文链接：https://arxiv.org/pdf/1606.00915.pdf

摘要

该文主要对基于深度学习的分割任务做了三个贡献，（1）使用空洞卷积来进行上采样来进行密集的预测任务。空洞卷积可以在不增加参数量的基础上增大filter的感受野，从而可以得到更多的语义信息。（2）空洞空间金字塔池化结构（ASPP）从而以多尺寸来分割目标物体。通过不同sample rates的filters及不同大小的感受野，来获得多尺寸下的语义信息。（3）结合DCNN与概率模型提高物体的检测边界。DCNNs+CRF

介绍

DCNN应用于分割的三个挑战：（1）feature 分辨率的减少（2）不同尺寸的目标物（3）由于DCNN的不变性导致分割边界的不精确。

解决方案：（1）将DCNN最后几个maxpooling去掉，在后续的卷积层中添加更高sample rate的空洞卷积。结合空洞卷积与双线性插值将feature map 还原为原图大小。

（2）一个标准方式是将图片处理成相同的尺寸，然后融合特征与score maps，但会引入大量的计算。受到空间金字塔池化启发，对feature map以多rates 进行卷积，增强了感受野，该文对一张图片平行的使用不同sample rate 的空洞卷积层（ASPP）。

（3）一个对应物体中心的分类器，要求对空间的一些旋转等变换有类别不变性，一种方式是在进行最终的分割预测时通过跳跃连接不同层的 features 来获得潜在信息。本文，作者是用了一个全连接的CRF来改善模型对边界的分割。

本文对VGG16,ResNe-101进行改进，（1）将全连接层变为卷积层（2）通过增加空洞卷积增加特征图的分辨率，应用双线性插值将score map还原为原图大小。（3）后接CRF来增强分割结果。

DeepLab的优势：（1）空洞卷积提高了速度（2）准确率：在VOC的多个任务上实现state-of-art（3）简约性：DCNNs+CRFs

DeepLabv2相比DeepLabv1的改进：对多尺寸的图片分割效果更好，引入ASPP，用ResNet作为backbone，实现比VGG16更好的效果。

相关工作

先前主要靠将手工设计的特征与boosting,随机森林，SVM等分类器结合实现较好的分割效果，后来结合了上下文信息与结构预测技术，但他们特征表达能力仍有欠缺。近年来，Deep Learning 推动了分割的发展。大致分为如下三个部分：

（1）基于DCNN的分割：通常采用自底向上的feature map级联，然后送入DCNN进行区域分割。

（2）通过卷积得到的DCNN feature maps 来密集的图像标记，然后将每个feature map单独的与分割结合起来。

（3）通过DCNNs直接得到密集的图像标签，甚至可以丢弃传统的分割算法。

这里提一下，虽然CRF作为后处理的手段，但该文将CRF的 mean-filed 推理步骤进行转化，并添加到end-to-end可训练的前向网络中。

方法

在空洞卷积部分，作者提到使用反卷积的一个弊端是需要额外的内存和计算时间。

上图（上层为1D，下层为2D）很容易可以看出，将空洞卷积的rate 调大，会使得到的feature map更加密集。这里，由于网络最后的卷积池化层分辨率减少很多，因此，在随后的网络中增加rate 为2的空洞卷积，但这里会大大增加计算量，平衡效率与准确率，在对一个feature map放大四倍后，进行双线性插值来还原到原图分辨率大小。

空洞卷积的一个好处是可以控制感受野的大小。一个大小为kxk的卷积核引入rate为r的空洞卷积后大小变为Ke，计算如下

空洞卷积的应用表现在两个方面：（1）在卷积核中插入0值来进行上采样或稀疏采样输入的feature map。（2）根据空洞卷积中rate值的大小等倍数的对input feature map进行下采样。后通过标准的卷积使他们的像素恢复到原图大小。

ASPP

为了解决分割中的多尺寸问题，该文实验了两种方法：

（1）采用传统的方法，在训练和测试时，从DCNN中抽取多层（这里使三层）feature map，通过双线性插值恢复为原图尺寸，然后将其进行融合，这么做确实有效果，但是增加了DCNN的计算量。

（2）对一张图片上通过平行的进行不同尺寸的空洞卷积操作，间接的得到多尺度特性，不同sample rate提取的特征经过单独的后处理和融合进而生成最终的结果。采用的即ASPP模型，如下图。

全连接CRF

DCNN中的一个固有弊端是位置的准确性与分类的效果之间的矛盾，带有池化层越深的模型其分类效果越好，但持续增加的不变性与较大的感受野只会使结果更加平滑，但无法使边界更加分明。

针对边界问题的方法，一是可以利用网络中多层feature map以便更好的进行边界分割。另一种方法是可以引入超像素表示，将边界任务交给较低级的分割方法处理。

该文结合DCNN的识别能力与全连接CRF较高的分界效果。

实验

将VGG-16和ResNet-101处理成分割网络。损失函数是CNN输出feature map（缩小为8倍）后空间位置交叉熵的和，使用SGD优化算法，在PASCAL VOC 2012, PASCAL-Context, PASCALPerson-Part,和 Cityscapes上进行实验。

PASCAL VOC 2012：backbone:VGG-16 ，mini-batch:20 ,learning rate: 0.001，learning rate decay: 0.1 ，momentum: 0.9 ，weight decay: 0.0005

实验上的改进：（1）训练时不同的学习策略。（2）ASPP（3）加深网络和多尺度处理

（1）使用poly 学习速率，

（2）调整ASPP中的rate: r={2,4,8,12} r={6,12,18,24}

（3）将VGG-16换位ResNet-101使网络加深。

参考

[1] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learning applied to document recognition,” in Proc. IEEE, 1998.

[2] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classiﬁcation with deep convolutional neural networks,” in NIPS, 2013.

[3] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun, “Overfeat: Integrated recognition, localization and detection using convolutional networks,” arXiv:1312.6229, 2013.

论文阅读笔记十：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (DeepLabv2)(CVPR2016)的更多相关文章

论文阅读笔记九：SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS (DeepLabv1)(CVPR2014)
论文链接:https://arxiv.org/abs/1412.7062 摘要该文将DCNN与概率模型结合进行语义分割,并指出DCNN的最后一层feature map不足以进行准确的语义分割,DCN ...
论文阅读笔记十九：PIXEL DECONVOLUTIONAL NETWORKS(CVPR2017)
论文源址:https://arxiv.org/abs/1705.06820 tensorflow(github): https://github.com/HongyangGao/PixelDCN 基于 ...
论文阅读笔记十六：DeconvNet:Learning Deconvolution Network for Semantic Segmentation(ICCV2015)
论文源址:https://arxiv.org/abs/1505.04366 tensorflow代码:https://github.com/fabianbormann/Tensorflow-Decon ...
论文阅读笔记十四：Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation（CVPR2015）
论文链接:https://arxiv.org/abs/1506.04924 摘要该文提出了基于混合标签的半监督分割网络.与当前基于区域分类的单任务的分割方法不同,Decoupled 网络将分割与分类 ...
论文阅读笔记十五：Pyramid Scene Parsing Network（CVPR2016）
论文源址:https://arxiv.org/pdf/1612.01105.pdf tensorflow代码:https://github.com/hellochick/PSPNet-tensorfl ...
论文阅读笔记十八：ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation(CVPR2016)
论文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet ...
论文阅读笔记十二：Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation（DeepLabv3+）(CVPR2018)
论文链接:https://arxiv.org/abs/1802.02611 tensorflow 官方实现: https: //github.com/tensorflow/models/tree/ma ...
论文阅读笔记三十八：Deformable Convolutional Networks（ECCV2017）
论文源址:https://arxiv.org/abs/1703.06211 开源项目:https://github.com/msracver/Deformable-ConvNets 摘要卷积神经网络 ...
论文阅读笔记五十六：（ExtremeNet）Bottom-up Object Detection by Grouping Extreme and Center Points（CVPR2019）
论文原址:https://arxiv.org/abs/1901.08043 github: https://github.com/xingyizhou/ExtremeNet 摘要本文利用一个关键点检 ...

随机推荐

python基础-----变量和简单数据类型
初识变量 1.变量命名规则: a.字母 b.数字(不能开头) c.下划线 ps.硬性规定,命名必须是字母,数字,下划线,且不能以数字开头. 软性规则,以下划线分割 2.实例: a.写法: age_of ...
Java HashMap、HashTable、TreeMap、WeakHashMap区别
1.HashMap不是线程安全,而HashTable是线程安全
Three.js基础探寻四——立方体、平面与球体
前面简单介绍了webGL和Three.js的背景以及照相机的设定,接下来介绍一些Three.js中的几何形状. 1.立方体虽然这一形状的名字叫立方体(CubeGeometry),但它其实是长方体,也 ...
Python3-socket网络知识储备
本文参考文章:http://www.cnblogs.com/linhaifeng/articles/6129246.html 计算机基础知识客户端软件基于网络发送一条信息给服务端软件,流程是: 1. ...
vue2+axios在不同的环境打包不同的接口地址
node.js的环境变量 process process 对象是一个 global (全局变量),提供有关信息,控制当前 Node.js 进程.作为一个对象,它对于 Node.js 应用程序始终是可用 ...
delete指针以后应赋值为NULL
delete p后,只是释放了指针中存放的地址中的内存空间.但是指针变量p仍然存在(即指针p本身所占有的内存),且p中存放的地址还是原来的地址. 例如: 对一个非空指针delete后,若没有将p赋为N ...
一道并查集的（坑）题：关闭农场closing the farm
题目描述 in English: Farmer John and his cows are planning to leave town for a long vacation, and so FJ ...
MySQL-mysql 8.0.12安装教程
1.下载zip安装包去官网下载MySQL8.0 For Windows zip包,下载地址:https://dev.mysql.com/downloads/mysql/ 2.安装解压zip包到安装 ...
ES--02
第十一讲: 2个node环境下replica shard 是如何分配的 1)replica shard分配:3个primary shard,3个replica shard,1 node(2)prima ...
why should the parameter in copy construction be a reference
if not, it will lead to an endless loop!!! # include<iostream> using namespace std; class A { ...

论文阅读笔记十：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (DeepLabv2)(CVPR2016)

论文阅读笔记十：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (DeepLabv2)(CVPR2016)的更多相关文章

随机推荐

热门专题