论文阅读笔记九：SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS (DeepLabv1)(CVPR2014)

论文链接：https://arxiv.org/abs/1412.7062

摘要

该文将DCNN与概率模型结合进行语义分割，并指出DCNN的最后一层feature map不足以进行准确的语义分割，DCNN具有很强的空间不变性，因此比较擅长高层次的任务。该文通过在DCNN的最后一层添加一层CRF用来克服定位不准的问题。该文通过引入空洞算法来提高模型在GPU上的运行速度。

介绍

该文的一个主题是采用进行end-to-end训练的DCNN,相比传统的依赖，SIFT或者HOG等人工设计的特征会产生喜人的分割效果。部分原因可能是DCNN对图像变换局部区域的不变性，从而可以更好的学习抽象的信息。但另一方面却削弱了低层次类型的任务，像姿态估计，语义分割等需要精细定位的任务。

DCNN应用于图像标记任务主要存在两个技术障碍，下采样和空间不变性。第一个问题是在标准的DCNN中由于连续的池化和下采样导致单一分辨率的缺失，为此，该文引用了空洞卷积算法，可以使DCNN的计算更加密集。第二个问题是实际中我们分类器所作的是以目标物体中心决定分类的，这就决定需要空间信息的不变性，这就限制了DCNN的空间信息的准确性。该文通过后接一个全连接的条件随机场(CRF)来获得更加较好的细节。CRF将不同类别的分类器计算得到的class score与局部（像素，边和超像素等)捕捉的低层次信息进行结合。尽管更加复杂的工作已经提出来模拟层次的依赖性，但CRF在考虑远距离依赖的情形时，其计算较为高效，也可以较好的捕捉边界细节信息。

该文的三个主要贡献：（1）速度：借用空洞算法，可以使DCNN在8fps。(2)准确率：在PASCAL语义分割上的挑战获得最好成绩，并超第二7.2%(3)简单性：DCNN只由DCNNs与CRFs两部分组成。

相关工作

使用自上而下的图像分割级联与基于DCNN的区域分类，使得系统可能会在分割系统的前端产生潜在误差。有一种方法是通过一系列不同的CRF为基础的分割proposals，然后将proposals根据DCNN针对相对级别训练好的模型进行重新分级操作。虽然此法想要解决分割网络前端的本质问题，但仍无法很好的解释CRF分割算法的DCNN的Scores，这里DCNN只用作后处理。

方法

首先是基于空洞算法的密集滑动窗来进行特征提取，首先，将VGG-16的全连接层替换为卷积层，结果是生成的检测scores很稀疏，该文在VGG-16最后两个最大池化层后跳过下采样，同时，改变最后三层卷积层与全连接层的卷积核，在他们之间添加0来增加他们的长度。通过引入空洞卷积，可以使我们能够以任意的下采样rate准确的得到密集CNN的feature map。

其次，该文对VGG-16进行微调，将其最后一层的类别1000的分类器替换为类别21的一个，损失函数是卷积output map上每个空间位置交叉熵的求和。运用标准的SGD优化每一层网络的权重。在进行测试时，需要将class socre map还原为原始图像的分辨率。如下图，由于class score maps 十分平滑，可以通过简单的双线性插值近似的将其提高8倍分辨率。

最后，另一个关键因素使网络感受野的大小，VGG-16的感受野为224x224，如果应用卷积后，为404x404，将VGG-16变为全卷积后，第一个全连接层会有4096个大小为7x7的filters，这大大增加了计算的难度。该文减少第一个全连接层filter的空间尺寸（3x3），但也相对应的减少了网络的感受野（128x128 or308x308），减少了2到3倍的计算时间，同时，全连接层通道数的减小也有效果。

通过上面的图可以看出来，DCNN的score map 可以大致勾画出物体的轮廓，但细节上仍存在较大差距，卷积网络中，分类与定位之间有一个平衡，具有多层池化的更深层的网络在分类任务上取得的效果更好，然而，这里有一点问题就是，增加的不变性和较大的感受野使从最后的层预测出位置会有很大的挑战。通过利用卷积网络中多层信息，来更好的估计分割边界，另一种方法是采用超像素表示，将定位任务分给低级的分割方法。

该文首先利用DCNN的识别能力，后接全连接的CRF来提高位置的准确性，通常，CRF包含相邻节点的能量项，有利于将相同的标签分配到空间上相近的像素。本质上，short-range CRF的作用是清除由基于局部手工设计分类器产生的错误预测。相比弱分类器，DCNN得到的score maps 更加平滑，此时，再使用short-range CRF可能是有害的，因为目的不是为了平滑边界而是回复局部细节，因为经过DCNN后已经很平滑了。为了解决short-range CRF的弊端，引入了全连接CRF。

实验

参考

1.Adams, A., Baek, J., and Davis, M. A. Fast high-dimensional ﬁltering using the permutohedral lattice. In Computer Graphics Forum, 2010.

2.Arbel´aez, P., Pont-Tuset, J., Barron, J. T., Marques, F., and Malik, J. Multiscale combinatorial grouping. In CVPR, 2014.

论文阅读笔记九：SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS (DeepLabv1)(CVPR2014)的更多相关文章

论文阅读笔记十：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (DeepLabv2)(CVPR2016)
论文链接:https://arxiv.org/pdf/1606.00915.pdf 摘要该文主要对基于深度学习的分割任务做了三个贡献,(1)使用空洞卷积来进行上采样来进行密集的预测任务.空洞卷积可以 ...
论文阅读笔记三十五：R-FCN:Object Detection via Region-based Fully Convolutional Networks（CVPR2016）
论文源址:https://arxiv.org/abs/1605.06409 开源代码:https://github.com/PureDiors/pytorch_RFCN 摘要提出了基于区域的全卷积网 ...
论文阅读笔记十八：ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation(CVPR2016)
论文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet ...
论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)
论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf 摘要本文研究了利用深度神经网络 ...
论文阅读笔记十六：DeconvNet:Learning Deconvolution Network for Semantic Segmentation(ICCV2015)
论文源址:https://arxiv.org/abs/1505.04366 tensorflow代码:https://github.com/fabianbormann/Tensorflow-Decon ...
论文阅读笔记十四：Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation（CVPR2015）
论文链接:https://arxiv.org/abs/1506.04924 摘要该文提出了基于混合标签的半监督分割网络.与当前基于区域分类的单任务的分割方法不同,Decoupled 网络将分割与分类 ...
论文阅读笔记三十八：Deformable Convolutional Networks（ECCV2017）
论文源址:https://arxiv.org/abs/1703.06211 开源项目:https://github.com/msracver/Deformable-ConvNets 摘要卷积神经网络 ...
论文阅读笔记二十三：Learning to Segment Instances in Videos with Spatial Propagation Network（CVPR2017）
论文源址:https://arxiv.org/abs/1709.04609 摘要该文提出了基于深度学习的实例分割框架,主要分为三步,(1)训练一个基于ResNet-101的通用模型,用于分割图像中的 ...
论文阅读笔记二十一：MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS（ICRL2016）
论文源址:https://arxiv.org/abs/1511.07122 tensorflow Github:https://github.com/ndrplz/dilation-tensorflo ...

随机推荐

CF1096D Easy Problem
题目地址:CF1096D Easy Problem 比赛时高二dalaoLRZ提醒我是状压,然而,我还是没AC (汗其实是一道很基础的线性dp \(f_{i,j}\) 表示序列第 \(i\) 个字符 ...
cei()、linspace()、arrange()、full()、eye()、empty()、random()
1.np.ceil()函数 np.ceil()函数为朝正无穷方向取整 a = np.array([-1.7, -1.5, -0.2, 0.2, 1.5, 1.7, 2.0]) print(np.cei ...
Faster_RCNN 1.准备工作
总结自论文:Faster_RCNN,与Pytorch代码: 代码结构: simple-faster-rcnn-pytorch.py data __init__.py dataset.py util. ...
cosmic_download-AsyncPool待修正
# !/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/11/16 10:02 AM # @Author : cxa # @File ...
Navicat for MySQL连接mysql数据库时提示错误：Can't connect to MySQL server (10060)
导致些问题可能有以下几个原因: 1.网络不通: 2.服务未启动: 3.防火墙端口未开放: a)首先确认mysql配置正确,并正确开启 service mysqld start; 设置mysql远程连接 ...
ffmpeg 版本升级到 4.0 增加 libaom 库 [AOMedia 的 AV1 视频编码格式]
win10 中交叉编译 libaom 时注意事项 libaom 源代码下载 git -c "http.proxy=ip:port" clone https://aomedia. ...
nginx多虚拟主机优先级location匹配规则及tryfiles的使用
nginx多虚拟主机优先级location匹配规则及tryfiles的使用 .相同server_name多个虚拟主机优先级访问 .location匹配优先级 .try_files使用 .nginx的a ...
MySQL新增多个字段
alter table pic_all add ( `expand1` ), `expand2` ), `expand3` ) );
mysqlfrm初步使用
这个工具也就是读取frm文件生成建表语句默认的模式是再生个实例,使用--basedir选项或指定--server选项来连接到已经安装的实例.这种过程不会改变原始的.frm文件.该模式也需要指定--po ...
codecs and formats of digital media
A codec is a device or software that is used to compress or decompress a digital media file, such as ...

论文阅读笔记九：SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS (DeepLabv1)(CVPR2014)

论文阅读笔记九：SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS (DeepLabv1)(CVPR2014)的更多相关文章

随机推荐

热门专题