CVPR2020论文解读:三维语义分割3D Semantic Segmentation

xMUDA: Cross-Modal Unsupervised Domain Adaptation  for 3D Semantic Segmentation

摘要

无监督域自适应(UDA)对于解决新域中缺少注释的问题至关重要。有许多多模态数据集,但大多数UDA方法都是单模态的。在这项工作中,我们探索如何从多模态学*,并提出跨模态UDA(xMUDA),其中我们假设存在二维图像和三维点云进行三维语义分割。这是一个挑战,因为这两个输入空间是异构的,并且可能受到域移动的不同影响。在xMUDA中,模态通过相互模仿相互学*,脱离分割目标,防止强模态采用弱模态的错误预测。利用最*的自动驾驶数据集,评估新的UDA方案,包括白天到晚上、国家到国家和数据集到数据集。xMUDA在所有测试场景上都比单峰UDA有很大的改进,并且是对最新UDA技术的补充。

创新点:

Unsupervised Domain Adaptation.

在过去的几年中,人们对无监督的领域适应技术越来越感兴趣,这些技术可以用于复杂的感知任务,如目标检测和语义分割。

虽然大多数现有的作品考虑的是2D世界中的UDA,但很少有人处理3D世界中的UDA。吴等人 [32]在激光雷达点云的三维分割中,对UDA采用了激活相关对齐[19]。在这项工作中,本文研究了相同的任务,但不同的是:系统对多模态输入数据(即RGB+LiDAR)进行操作。

在多模态场景的2D/3D语义分割方面,目前还没有UDA的研究成果。只有一些人考虑到额外的模式,例如深度,仅在源域上的训练时间可用,并利用这些特权信息来提高适应性能。否则,这里假设所有模式在训练和测试时间在源域和目标域上都可用。

Multi-Modality Learning.

在有监督的设置中,通过融合来自多个源的特征,可以自然地提高性能。几何上最简单的情况是RGB深度融合与密集的像素到像素的二维分割对应[9,26]。将三维点云与二维图像融合起来比较困难,因为它们生活在不同的度量空间中。一种解决方案是将二维和三维特征投影到“鸟瞰图”中进行目标检测[18]。另一种可能性是将多视图图像中的二维特征提升到三维点云,以实现三维语义分割的二维-三维联合处理[23、14、3]。本文更接*于上一系列的工作:共享三维语义分割的相同目标。然而,我们关注的是如何利用多模态来代替有监督的学*,并且只使用单视图图像及其对应的点云。

3D networks for semantic segmentation.

虽然图像是稠密的张量,但三维点云可以用多种方式表示,从而导致相互竞争的网络族并行演化。体素与像素非常相似,但由于大多数体素是空的,因此记忆非常强烈。Graham等人[8] 类似的实现[4]通过使用哈希表仅对活动体素卷积来解决这个问题。这允许非常高的分辨率,通常每个体素只有一个点。基于点的网络在连续的三维空间中执行计算,因此可以直接接受点云作为输入。PointNet++[21]使用逐点卷积、最大池来计算全局特征和局部邻域聚集,用于类似CNN的分层学*。在这方面已经提出了许多改进,如连续卷积[29]和可变形核[24]。基于图的网络卷积在点云的边上[30]。在这项工作中,本文选择Sparse ConvNet[8]作为3D网络,这是ScanNet基准上的最新技术[5]。

3.xMUDA

跨模态UDA(xMUDA)的目的是通过在模态之间进行受控信息交换来利用多模态,使模态之间相互学*。在下面,我们定义了基本的监督学*设置,我们的跨模态损失LxM,和附加的伪标签学*方法。loss流量如图3所示。

Supervised Learning

可以将每个网络流(2D和3D)的分段损失Lseg写为:

Cross-Modal Learning

跨模式无监督学*的目标有两个。首先,我们要在目标数据集上将知识从一种模式转移到另一种模式。其次,要在源和目标上设计一个辅助目标,任务是估计其他模态的预测。

选择交叉模块LxM的KL发散角,并按如下定义:

每个网络流(2D和3D)的完整优化目标是源上的分段损失Lseg和源上和目标上的交叉模块LxM的组合:

Self-training with Pseudo-Labels

跨模态学*是对伪标记策略[15]的补充,伪标记策略最初用于半监督学*,最*用于UDA[17,34]。具体来说,一旦用公式4优化了一个模型,我们就提取出伪标签,根据预测的类别概率选择高度机密的标签。然后,使用生成的伪标签从头开始训练,以便在目标训练集上附加分段损失。实际上,优化问题:

4. Experiments

在三个提出的跨模态UDA方案上评估xMUDA,并与art-uni-modal UDA方法的状态进行比较[17]。表1报告了在3个UDA方案的目标测试集上3D分割的平均交并(mIoU)

结果。

定性结果如图6所示,显示了xMUDA在所有拟议UDA方案中的通用性。图7描绘了各个2D/3D输出,以说明它们各自的强项和弱点,例如,在夜间3D的工作比2D好得多。本文还提供了A2D2到semanickittiscenariottp://tiny.cc/xmuda的视频。

Extension to Fusion

前面展示了如何使用xMUDA改进每种成像方式,因此,softmax平均值也随之增加。然而,如何通过二维和三维特征融合来获得尽可能好的效果呢?

一种常见的融合架构是后期融合,其中来自不同来源的特征被连接起来(参见图4a)。然而,对于xMUDA,需要在特征中独立于模态,否则模拟任务变得微不足道。因此,本文提出xMUDA融合(参见图4b),其中每个模态具有用于模拟融合预测的单模态预测输出。

在表2中,展示了不同融合的结果。“xMUDA Fusion w/o PL”由于跨模态学*而优于普通的Fusion。

Segmentation Heads

在下面,我们证明了我们的设计选择两个分割头的永久流,而不是一个单一的方法(见图5a)。在单头架构中,模拟目标直接应用于两个主要预测之间,这两个预测导致弱模态概率的增加和强模态的减少,如图5b中的车辆类别所示。

由于希望对纯跨模态学*进行基准测试,因此实验通常包括无PL的firsttrainingstep。从表3中的结果。xMUDA比单头结构有更好的性能,而且在选择好的超参数时也更为可靠,特别是交叉模态损失的重量λt。

5. Conclusion

提出xMUDA,跨模态无监督域自适应,其中模态相互学*以提高目标域上的性能。设计了一个具有独立主头和模拟头的体系结构,从跨模态学*目标中分离出分段。在新的UDA场景下利用2D/3D数据集进行3D语义分割的实验表明,xMUDA在很大程度上优于单峰UDA,是对伪标签策略的补充。在融合过程中观察到模拟性能的提高。跨模态学*在很多场合和任务中都是有用的,不仅仅限于UDA。特别是,它应该有利于监督学*和其他方式,而不是图像和点云。

CVPR2020论文解读:三维语义分割3D Semantic Segmentation的更多相关文章

  1. [论文][半监督语义分割]Semi-Supervised Semantic Segmentation with High- and Low-level Consistency

    Semi-Supervised Semantic Segmentation with High- and Low-level Consistency TPAMI 2019 论文原文 code 创新点: ...

  2. CVPR2020论文解读:手绘草图卷积网络语义分割

    CVPR2020论文解读:手绘草图卷积网络语义分割 Sketch GCN: Semantic Sketch Segmentation with Graph Convolutional Networks ...

  3. CVPR2020论文解读:3D Object Detection三维目标检测

    CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...

  4. CVPR2020:点云弱监督三维语义分割的多路径区域挖掘

    CVPR2020:点云弱监督三维语义分割的多路径区域挖掘 Multi-Path Region Mining for Weakly Supervised 3D Semantic Segmentation ...

  5. CVPR2020论文解析:实例分割算法

    CVPR2020论文解析:实例分割算法 BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation 论文链接:https://arxiv ...

  6. 图像分类:CVPR2020论文解读

    图像分类:CVPR2020论文解读 Towards Robust Image Classification Using Sequential Attention Models 论文链接:https:// ...

  7. CVPR2020论文解读:OCR场景文本识别

    CVPR2020论文解读:OCR场景文本识别 ABCNet:  Real-time Scene Text Spotting with Adaptive Bezier-Curve Network∗ 论文 ...

  8. CVPR2020 论文解读:少点目标检测

    CVPR2020 论文解读:具有注意RPN和多关系检测器的少点目标检测 Few-Shot Object Detection with Attention-RPN and Multi-Relation ...

  9. CVPR2020论文解读:CNN合成的图片鉴别

    CVPR2020论文解读:CNN合成的图片鉴别 <CNN-generated images are surprisingly easy to spot... for now> 论文链接:h ...

随机推荐

  1. Windows远程时无法复制文件--杀进程rdpclip.exe,然后再启动

    1.远程登陆到主机上 2.任务管理器杀进程rdpclip.exe 3.[开始],搜索rdpclip.exe,点击运行 此时重新复制文件,可以跨主机复制啦 原以为是公司网络限制,现在看来还是没那么先进嘛

  2. 基于三层交换机的VRRP技术--MSTP、VRRP的综合运用

    MSTP (多生成树) 每个VLAN或者几个VLAN拥有一颗生成树,基于实例的生成树.instance 1.instance 2 每个实例拥有一颗生成树.MSTP可以实现多VLAN 的负载分担,可以实 ...

  3. poj 2472

    题意:      给你一个无向图,然后每条边的权值就是不被抓的概率,有个货要从1逃到n,问你他的最安全概率是多少? 思路:       水题,直接跑就行了,一开始自己想多了,还转换了一下log,后来发 ...

  4. POJ3614奶牛晒阳光DINIC或者贪心

    题意:       n个区间,m种点,每种点有ci个,如果一个点的范围在一个区间上,那么就可以消耗掉一个区间,问最多可以消耗多少个区间,就是这n个区间中,有多少个可能被抵消掉. 思路:       方 ...

  5. 在kubernetes上运行WASM负载

    在kubernetes上运行WASM负载 WASM一般用在前端业务中,但目前有扩展到后端服务的趋势.本文使用Krustlet 将WASM服务部署到kubernetes. 简介 Krustlet 是一个 ...

  6. 如何使用java搭建一款高性能的Mqtt集群broker!

    SMQTT是一款开源的MQTT消息代理Broker, SMQTT基于Netty开发,底层采用Reactor3反应堆模型,支持单机部署,支持容器化部署,具备低延迟,高吞吐量,支持百万TCP连接,同时支持 ...

  7. vue 2.9.6升级到最新版本

    在看文档https://cli.vuejs.org/zh/guide/installation.html中,按步骤升级vue: 于是就先通过 npm uninstall vue-cli -g卸载vue ...

  8. 解决移动端300ms延迟fastclick

    为什么要使用fastclick 移动设备上的浏览器默认会在用户点击屏幕大约延迟300毫秒后才会触发点击事件,这是为了检查用户是否在做双击.为了能够立即响应用户的点击事件,才有了fastclick. f ...

  9. 完美解决MSSQL安装问题“Polybase要求安装Oracle JRE 7更新51(64位)”方案

    阅文时长 | 0.72分钟 字数统计 | 1164.8字符 主要内容 | 1.问题起因及解决方案 2.安装jdk-8u241-windows-x64 3.取消PolyBase查询服务 4.四.声明与参 ...

  10. 列出系统上的存储库,状态是enabled [root@blog ~]# dnf repolist

    DNF 和 YUM 均是 rpm 软件包管理工具,但是 DFN 替代 YUM 的说法由来已久,因为 YUM 包管理工具有一些问题长期得不到解决. 这些问题包括性能低下.内存占用高以及依赖包解决方案不佳 ...