CVPR2020论文解读：三维语义分割3D Semantic Segmentation

xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation

摘要

无监督域自适应（UDA）对于解决新域中缺少注释的问题至关重要。有许多多模态数据集，但大多数UDA方法都是单模态的。在这项工作中，我们探索如何从多模态学*，并提出跨模态UDA（xMUDA），其中我们假设存在二维图像和三维点云进行三维语义分割。这是一个挑战，因为这两个输入空间是异构的，并且可能受到域移动的不同影响。在xMUDA中，模态通过相互模仿相互学*，脱离分割目标，防止强模态采用弱模态的错误预测。利用最*的自动驾驶数据集，评估新的UDA方案，包括白天到晚上、国家到国家和数据集到数据集。xMUDA在所有测试场景上都比单峰UDA有很大的改进，并且是对最新UDA技术的补充。

创新点：

Unsupervised Domain Adaptation.

在过去的几年中，人们对无监督的领域适应技术越来越感兴趣，这些技术可以用于复杂的感知任务，如目标检测和语义分割。

虽然大多数现有的作品考虑的是2D世界中的UDA，但很少有人处理3D世界中的UDA。吴等人 [32]在激光雷达点云的三维分割中，对UDA采用了激活相关对齐[19]。在这项工作中，本文研究了相同的任务，但不同的是：系统对多模态输入数据（即RGB+LiDAR）进行操作。

在多模态场景的2D/3D语义分割方面，目前还没有UDA的研究成果。只有一些人考虑到额外的模式，例如深度，仅在源域上的训练时间可用，并利用这些特权信息来提高适应性能。否则，这里假设所有模式在训练和测试时间在源域和目标域上都可用。

Multi-Modality Learning.

在有监督的设置中，通过融合来自多个源的特征，可以自然地提高性能。几何上最简单的情况是RGB深度融合与密集的像素到像素的二维分割对应[9，26]。将三维点云与二维图像融合起来比较困难，因为它们生活在不同的度量空间中。一种解决方案是将二维和三维特征投影到“鸟瞰图”中进行目标检测[18]。另一种可能性是将多视图图像中的二维特征提升到三维点云，以实现三维语义分割的二维-三维联合处理[23、14、3]。本文更接*于上一系列的工作：共享三维语义分割的相同目标。然而，我们关注的是如何利用多模态来代替有监督的学*，并且只使用单视图图像及其对应的点云。

3D networks for semantic segmentation.

虽然图像是稠密的张量，但三维点云可以用多种方式表示，从而导致相互竞争的网络族并行演化。体素与像素非常相似，但由于大多数体素是空的，因此记忆非常强烈。Graham等人[8] 类似的实现[4]通过使用哈希表仅对活动体素卷积来解决这个问题。这允许非常高的分辨率，通常每个体素只有一个点。基于点的网络在连续的三维空间中执行计算，因此可以直接接受点云作为输入。PointNet++[21]使用逐点卷积、最大池来计算全局特征和局部邻域聚集，用于类似CNN的分层学*。在这方面已经提出了许多改进，如连续卷积[29]和可变形核[24]。基于图的网络卷积在点云的边上[30]。在这项工作中，本文选择Sparse ConvNet[8]作为3D网络，这是ScanNet基准上的最新技术[5]。

3.xMUDA

跨模态UDA（xMUDA）的目的是通过在模态之间进行受控信息交换来利用多模态，使模态之间相互学*。在下面，我们定义了基本的监督学*设置，我们的跨模态损失LxM，和附加的伪标签学*方法。loss流量如图3所示。

Supervised Learning

可以将每个网络流（2D和3D）的分段损失Lseg写为：

Cross-Modal Learning

跨模式无监督学*的目标有两个。首先，我们要在目标数据集上将知识从一种模式转移到另一种模式。其次，要在源和目标上设计一个辅助目标，任务是估计其他模态的预测。

选择交叉模块LxM的KL发散角，并按如下定义：

每个网络流（2D和3D）的完整优化目标是源上的分段损失Lseg和源上和目标上的交叉模块LxM的组合：

Self-training with Pseudo-Labels

跨模态学*是对伪标记策略[15]的补充，伪标记策略最初用于半监督学*，最*用于UDA[17，34]。具体来说，一旦用公式4优化了一个模型，我们就提取出伪标签，根据预测的类别概率选择高度机密的标签。然后，使用生成的伪标签从头开始训练，以便在目标训练集上附加分段损失。实际上，优化问题：

4. Experiments

在三个提出的跨模态UDA方案上评估xMUDA，并与art-uni-modal UDA方法的状态进行比较[17]。表1报告了在3个UDA方案的目标测试集上3D分割的平均交并（mIoU）

结果。

定性结果如图6所示，显示了xMUDA在所有拟议UDA方案中的通用性。图7描绘了各个2D/3D输出，以说明它们各自的强项和弱点，例如，在夜间3D的工作比2D好得多。本文还提供了A2D2到semanickittiscenariottp://tiny.cc/xmuda的视频。

Extension to Fusion

前面展示了如何使用xMUDA改进每种成像方式，因此，softmax平均值也随之增加。然而，如何通过二维和三维特征融合来获得尽可能好的效果呢？

一种常见的融合架构是后期融合，其中来自不同来源的特征被连接起来（参见图4a）。然而，对于xMUDA，需要在特征中独立于模态，否则模拟任务变得微不足道。因此，本文提出xMUDA融合（参见图4b），其中每个模态具有用于模拟融合预测的单模态预测输出。

在表2中，展示了不同融合的结果。“xMUDA Fusion w/o PL”由于跨模态学*而优于普通的Fusion。

Segmentation Heads

在下面，我们证明了我们的设计选择两个分割头的永久流，而不是一个单一的方法（见图5a）。在单头架构中，模拟目标直接应用于两个主要预测之间，这两个预测导致弱模态概率的增加和强模态的减少，如图5b中的车辆类别所示。

由于希望对纯跨模态学*进行基准测试，因此实验通常包括无PL的firsttrainingstep。从表3中的结果。xMUDA比单头结构有更好的性能，而且在选择好的超参数时也更为可靠，特别是交叉模态损失的重量λt。

5. Conclusion

提出xMUDA，跨模态无监督域自适应，其中模态相互学*以提高目标域上的性能。设计了一个具有独立主头和模拟头的体系结构，从跨模态学*目标中分离出分段。在新的UDA场景下利用2D/3D数据集进行3D语义分割的实验表明，xMUDA在很大程度上优于单峰UDA，是对伪标签策略的补充。在融合过程中观察到模拟性能的提高。跨模态学*在很多场合和任务中都是有用的，不仅仅限于UDA。特别是，它应该有利于监督学*和其他方式，而不是图像和点云。

CVPR2020论文解读：三维语义分割3D Semantic Segmentation的更多相关文章

[论文][半监督语义分割]Semi-Supervised Semantic Segmentation with High- and Low-level Consistency
Semi-Supervised Semantic Segmentation with High- and Low-level Consistency TPAMI 2019 论文原文 code 创新点: ...
CVPR2020论文解读：手绘草图卷积网络语义分割
CVPR2020论文解读:手绘草图卷积网络语义分割 Sketch GCN: Semantic Sketch Segmentation with Graph Convolutional Networks ...
CVPR2020论文解读：3D Object Detection三维目标检测
CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...
CVPR2020：点云弱监督三维语义分割的多路径区域挖掘
CVPR2020:点云弱监督三维语义分割的多路径区域挖掘 Multi-Path Region Mining for Weakly Supervised 3D Semantic Segmentation ...
CVPR2020论文解析：实例分割算法
CVPR2020论文解析:实例分割算法 BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation 论文链接:https://arxiv ...
图像分类：CVPR2020论文解读
图像分类:CVPR2020论文解读 Towards Robust Image Classiﬁcation Using Sequential Attention Models 论文链接:https:// ...
CVPR2020论文解读：OCR场景文本识别
CVPR2020论文解读:OCR场景文本识别 ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network∗ 论文 ...
CVPR2020 论文解读：少点目标检测
CVPR2020 论文解读:具有注意RPN和多关系检测器的少点目标检测 Few-Shot Object Detection with Attention-RPN and Multi-Relation ...
CVPR2020论文解读：CNN合成的图片鉴别
CVPR2020论文解读:CNN合成的图片鉴别 <CNN-generated images are surprisingly easy to spot... for now> 论文链接:h ...

随机推荐

video播放视频以及相关事件
<!DOCTYPE html> <html lang="en"> <head> <meta http-equiv="Conten ...
【ElasticSearch】ElasticSearch集群扫盲
Cluster 集群⼀个 Elasticsearch 集群由⼀个或多个节点(Node)组成,每个集群都有⼀个共同的集群名称作为标识. Node节点⼀个 Elasticsearch 实例即⼀个 ...
洛谷P1307 数字反转
题目描述给定一个整数,请将该数各个位上数字反转得到一个新数.新数也应满足整数的常见形式,即除非给定的原数为零,否则反转后得到的新数的最高位数字不应为零(参见样例2). 输入输出格式输入格式: 输入 ...
POJ2431贪心（最少加油次数）
题意: 给一个终点,然后给你一个卡车距离终点的距离,还有其他个加油站距离终点的距离,然后每走一个单位距离要花费一个单位油,卡车的邮箱是无限大的,而每个加油站的油量是有限的,整个路径是一个 ...
.NET Core with 微服务 - 什么是微服务
微服务是这几年最流行的架构,说起架构不提微服务都不好意思跟人家打招呼.最近想要再梳理一下关于微服务的知识,并且结合本人的一些实践经验来做一些总结与分享.前面会分享一些概念性的东西,后面也会使用.net ...
CentOS防火墙相关命令
针对于CentOS-6(CentOS-7命令不同,CentOS-8输入以下指令会自动定向,可以通用) 查看防火墙状态 # service iptables status 关闭防火墙 # service ...
No input file specified.问题的解决
问题描述:apache配置网站出现问题"No input file specified." 解决1: 打开.htaccess 在RewriteRule 后面的index.php教程 ...
引言：CTF新世界
1. CTF的昨天和今天 CTF(Capture The Flag)中文一般译作夺旗赛,在网络安全领域中指的是网络安全技术人员之间进行技术竞技的一种比赛形式.CTF起源于1996年DEFCON全球黑客 ...
技术博客：Azure Functions + Azure Storage 开发
Azure GitHub wiki 同步发布传送门 Azure Functions 通过 Functions(一个事件驱动型无服务器计算平台,还可以解决复杂的业务流程问题)更加高效地进行开发.在本地 ...
golang：运算符总结
算术运算符运算符示例结果 + 10 + 5 15 - 10 - 5 5 * (除数不能为0) 10 * 5 50 / 10 / 5 2 % (除数不能为0) 10 % 3 1 ++ a = 0; ...

CVPR2020论文解读：三维语义分割3D Semantic Segmentation

CVPR2020论文解读：三维语义分割3D Semantic Segmentation的更多相关文章

随机推荐

热门专题