细粒度语义分割:ICCV2019论文解析
细粒度语义分割:ICCV2019论文解析
Fine-Grained Segmentation Networks: Self-Supervised Segmentation for Improved Long-Term Visual Localization

论文链接:
摘要
长期的视觉定位是在一个场景中估计给定的查询图像的相机姿态,该场景的外观随时间而变化。这是一个重要的问题,在实践中,例如,遇到的自主驾驶。为了获得对这种变化的鲁棒性,长期定位方法通常使用分段作为不变的场景表示,因为每个场景部分的语义不受季节性变化和其他变化的影响。然而,由于可用类的数量有限,这些表示通常不是非常有区别的。本文提出了一种新的神经网络,即细粒度分割网络(FGSN),它可以提供大量的标签,并能以自监督的方式进行训练。此外,我们还展示了如何训练FGSNs在季节变化中输出一致的标签。我们通过大量实验证明,将我们的FGSNs产生的细粒度分段集成到现有的定位算法中可以显著提高定位性能。
1. Introduction
具体而言,本文的贡献如下:
1) 提出了一种新的基于聚类索引的高密度分割网络FGSN。这消除了对人工定义类的需求,并允许我们通过自我监督学习以数据驱动的方式定义类。使用2D-2D对应数据集[42]进行训练,我们确保我们的课程在季节性和视点变化下是稳定的。我们方法的源代码是公开的。
2) fgsn允许我们创建更多类的内部分段。我们表明,这对语义视觉定位算法有积极的影响,并且当使用现有的定位方法时,可以带来实质性的改进。
3) 我们进行了详细的实验来研究聚类数目对多个视觉定位算法的影响。此外,我们还比较了两种类型的权重初始化,分别使用预先训练好的网络进行语义分割和图像分类。
2. Related Work
Semantic Segmentation
语义分割是为输入图像中的每个像素指定一个类标签的任务。现代方法使用完全卷积网络[47],可能预先训练分类[47],同时结合更高层次的背景[99],扩大接受域[17,19,92],或融合多尺度特征[18,66]。另一项工作是将fcn与概率图形模型相结合,例如,以后处理步骤[17]的形式,或作为端到端可训练网络中的可微组件[41,46100]。
(Semantic) Visual Localization
本文研究了基于语义分割的第二类方法[4,21,28,78,80,83,85,86,94]。这些方法使用语义图像分割来获得对外观和(中等)几何变化不变的场景表示。由于通常可用的类很少,因此得到的表示不是很有区别性。因此,语义定位方法使用语义作为仅次于3D信息的第二感知模态[21,78,83,85,86]。本文证明了这种方法所使用的图像分割不一定需要语义。相反,我们表明,这些方法得益于我们的fgsn产生的更细粒度分段和更多类。
Domain Adaption
语义定位算法隐式地假设语义分割对光照、视点、季节性等变化具有鲁棒性。实际上,用于语义分割的cnn通常只有在训练集中反映这些条件的情况下才能在不同的条件下表现良好。然而,为大型图像集创建像素级注释是一项耗时的任务。因此,域自适应方法[27,40,48,49,68,88101]考虑了将在一个域上训练的算法应用于新域的问题,在新域中几乎没有标记数据可用。这使得对合成数据集进行训练[65,67]以提高真实图像的性能[33,70102]成为可能。此外,网络在不同天气和光照条件下拍摄的图像上的性能也可以提高[90,91]。在语义图像分割中,这些方法提高了分割的鲁棒性。但是,它们不会增加可用类的数量,因此是对我们方法的补充。为了同样的目的,我们使用了最近提出的对应数据集[42],以确保我们的分割对光照和季节变化具有鲁棒性。
Self-Supervised Learning
自监督学习方法是无监督学习方法的一种变体,其中模型学习预测一组可从输入数据自动创建的标签。有几种方法训练CNN执行特定领域的辅助任务[25,56,61,97]。任务的一些例子包括预测丢失的图像部分[60]、自我运动[1]和图像的旋转[30]。为了解决这些辅助任务,CNNs需要学习有意义的视觉特征,这些特征也可以用于手头的实际任务。在[15]中,Caron等人。训练CNN使用k-均值图像特征聚类获得的标签进行图像级分类。我们将此方法扩展到训练图像分割网络。我们还显式地使用实际的集群或标签进行可视化本地化。这与[15]不同,在[15]中,集群只是学习分类等任务特性的一种手段。


3. Fine-Grained Segmentation Networks
细粒度分割网络(FGSN)与用于语义分割的标准CNN具有相同的结构。给定输入图像,生成密集的分割图。但是,标签不是在一组手动创建的注释上训练的,而是以自监督的方式创建的。在训练过程中,在一定的时间间隔内,从训练集中的图像中提取特征,并使用k-均值聚类进行聚类。然后,在训练期间,将每个像素一个的簇分配用作监督,即作为标签。这样,我们就可以更改FGSN输出的类的数量,而无需使用新的类集创建注释。FGSN被训练为为每个像素输出正确的标签。在训练过程中,我们还使用了一组2D-2D点对应关系[42],以确保预测在季节变化和视点变化下是稳定的。对应数据集的每个样本都包含从不同的遍历中获取的同一场景的两个图像,因此在不同的季节或天气条件下。每对图像中的一幅总是来自参考导线,在有利的天气条件下拍摄。在描绘相同3D点的图像中的点之间的2D-2D点对应也可用于每个图像对。鼓励网络对每个对应的两个点进行同一类预测,使输出对季节变化具有鲁棒性。图2示出了训练过程。注意,创建对应数据集的过程要比用语义标签手工标记相同的图像简单得多,详见[42]。
Training Loss
我们的训练损失包括两部分,通信部分Lcorr和集群分类部分Lclass。后者鼓励模型为数据集的参考图像中的每个像素输出正确的标签。我们使用一个标准的交叉熵损失作为目标。最终的Lclass是所有样品的平均值。


4. Semantic Visual Localization
为此,我们计算规范化互信息(NMI)来度量Cityscapes[22]验证集中的集群分配和注释语义标签之间的共享信息。将集群分配表示为X,语义标签分配表示为Y,规范化的互信息由

其中I是互信息,H是熵。如果X和Y是独立的,NMI(X;Y)=0。如果其中一个任务可以从另一个任务中预测,那么X传递的所有信息将与Y共享,并且NMI(X;Y)=1。
表1显示我们网络的NMI。正如预期的那样,与为分类而预先训练的网络相比,为语义分割而预先训练的网络实现了更高的NMI。直观地说,集群应该包含可用于本地化的语义信息。然而,高的NMI并不一定意味着更好的本地化性能。例如,在house和sky之间的边缘包含像素的集群将减少集群分配和语义类之间的NMI,但是对于本地化是有用的。
图3显示了在具有语义分割初始化的CMU上训练的网络的城市景观类和我们的聚类索引之间的列联表。每个列联表通过形成二维直方图来显示同一数据的两组赋值之间的相互关系,其中每个维度对应于其中一个赋值。在我们的例子中,维度分别对应于语义类标签和集群索引。可以看到,有许多聚类索引被分配给与语义类植被相同的像素。由于CMU图像包含大量的植被,这是预期的,并可能导致更多的信息可用于图像的本地化。从20个簇的网络列联表可以看出,索引为19的簇与几个语义类重叠。这意味着许多像素被分配给这个集群,这表明语义信息丢失了。这也反映在NMI(表1) ,这对于20个群集网络来说要比使用更多群集的网络要低。

5. Experiments
图3还示出许多簇不直接对应于语义类。这表明fgsn偏离了用于初始化它们的预先训练的网络。
表2显示了RobotCar和CMU数据集的实验结果。可以看出,使用经过20多个簇训练的FGSNs可以提高定位性能。特别是在具有挑战性的条件下,例如在RobotCar和Suburban上过夜,在CMU上停车,与语义分割相比,所获得的改进是相当可观的。当然,使用过多的聚类会导致图像的过分割,从而降低SSMC的定位精度。实验清楚地表明,SSMC从使用细粒度分段中获益,尽管聚类未必与标准语义概念对应。
根据表2,添加额外的数据集会降低性能,这很可能是因为必须重新实现网络才能产生结果。
如表3所示,如我们的FGSNs所提供的那样,使用带有更多标签的分段,提高了本地化性能,缩小了与当前最新技术的性能差距。这些结果清楚地验证了FGSNs背后的动机:使用更多的分割标签来创建更具区分性但仍然健壮的语义视觉定位表示。


6. Conclusions
在本文中,我们提出了一种新的卷积神经网络(FGSN),它输出密集的细粒度分割。利用k-means聚类,我们可以利用图像特征的聚类分配作为标签,以自监督的方式训练FGSNs。这使我们能够使用任意多个输出类,而不必手动创建注释。此外,我们还使用了2D-2D对应数据集[42],以确保类在季节变化和视点变化下是稳定的。通过大量的实验,我们已经证明,使用更多的细粒度分割,如我们的FGSNs,有利于语义视觉定位的任务。
未来的重要方向包括进一步调整视觉定位方法以适应更多的簇,以确保正确使用输出分段的增加的细节级别。此外,有兴趣进一步研究FGSNs的泛化,例如结合域自适应方法。
细粒度语义分割:ICCV2019论文解析的更多相关文章
- 结构感知图像修复:ICCV2019论文解析
结构感知图像修复:ICCV2019论文解析 StructureFlow: Image Inpainting via Structure-aware Appearance Flow 论文链接: http ...
- 大型图像数据聚类匹配:ICCV2019论文解析
大型图像数据聚类匹配:ICCV2019论文解析 Jointly Aligning Millions of Images with Deep Penalised Reconstruction Conge ...
- 深度学习白平衡(Color Constancy,AWB):ICCV2019论文解析
深度学习白平衡(Color Constancy,AWB):ICCV2019论文解析 What Else Can Fool Deep Learning? Addressing Color Constan ...
- 面部表情视频中进行远程心率测量:ICCV2019论文解析
面部表情视频中进行远程心率测量:ICCV2019论文解析 Remote Heart Rate Measurement from Highly Compressed Facial Videos: an ...
- 无监督域对抗算法:ICCV2019论文解析
无监督域对抗算法:ICCV2019论文解析 Drop to Adapt: Learning Discriminative Features for Unsupervised Domain Adapta ...
- 人脸真伪验证与识别:ICCV2019论文解析
人脸真伪验证与识别:ICCV2019论文解析 Face Forensics++: Learning to Detect Manipulated Facial Images 论文链接: http://o ...
- 深度学习数据特征提取:ICCV2019论文解析
深度学习数据特征提取:ICCV2019论文解析 Goal-Driven Sequential Data Abstraction 论文链接: http://openaccess.thecvf.com/c ...
- 视频动作定位的分层自关注网络:ICCV2019论文解析
视频动作定位的分层自关注网络:ICCV2019论文解析 Hierarchical Self-Attention Network for Action Localization in Videos 论文 ...
- 摄像头定位:ICCV2019论文解析
摄像头定位:ICCV2019论文解析 SANet: Scene Agnostic Network for Camera Localization 论文链接: http://openaccess.the ...
随机推荐
- Linux内核软中断
1 软中断概述 软中断是实现中断下半部的一种手段,与2.5以前版本的下半段机制不同.软中断可以同时运行在不同的CPU上. 1.1 软中断的表示 内核中用结构体softirq_action表示一个软中断 ...
- UVA10020(最小区间覆盖)
题意: 给你一个区间[0,m]和一些小的区间[l,r]让你选择最少的小区间个数去把整个区间覆盖起来. 思路: 算是比较经典的贪心题目吧(经典于难度没什么对应关系),大体思路可以 ...
- PAT 乙级 -- 1014 -- 福尔摩斯的约会
题目简介 大侦探福尔摩斯接到一张奇怪的字条:"我们约会吧! 3485djDkxh4hhGE 2984akDfkkkkggEdsb s&hgsfdk d&Hyscvnm&quo ...
- XML / HTML / XHTML 的区别
目录 HTML XML XHTML HTML HTML(HyperText Markup Language):超文本标记语言,是一种用于创建网页的标准标记语言,是用来格式化并显示数据的 用HTML语法 ...
- C#-Socket(TCP)
//提示,线程里面不要给控件赋值 LinkSocket.Send(result, length, 0); 自己挂起 private void button1_Click(object sender, ...
- Python 爬虫之urllib库的使用
urllib库 urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urlli ...
- Win64 驱动内核编程-19.HOOK-SSDT
HOOK SSDT 在 WIN64 上 HOOK SSDT 和 UNHOOK SSDT 在原理上跟 WIN32 没什么不同,甚至说 HOOK 和 UNHOOK 在本质上也没有不同,都是在指定的地址上填 ...
- 【vue-06】webpack npm
什么是Webpack Webpack是一款模块加载器兼打包工具,他能把各种资源,比如js,css,less转化成一个静态文件,减少页面的请求,提高效率. 安装Webpack 在安装webpack之前, ...
- Hbase问题小结(一)
1. Hbase读写优化 写: 批量写.异步批量提交.多线程并发写.使用BulkLoad写入.表优化(压缩算法.预分区.合理的rowkey设计.合理关闭WAL或异步WAL) SKIP_WAL:只写缓存 ...
- QFNU-ACM 2019.5.23组队赛 2019山东省赛复现
A.Calandar 题意:一年12个月,一个月30天,5天一周,已知某天的年月日星期数,求所给年月日的星期数是多少 思路:直接进行计算,其实每个月每年都是等长度的就使得计算的时候忽略年月,可以直接进 ...