摘要:本文给大家分享一篇我们在CVPR 2022 上发表的paper:Domain-Agnostic Prior for Transfer Semantic Segmentation。文章提出了一种图像域无关的先验,可以有效地提升域适应语义分割的精度。

本文分享自华为云社区《EI盘古研究分享【CVPR2022】用于域适应语义分割的域无关先验》,作者:198808xc。

1. UDA 分割中的相似类别混淆问题

尽管self-training在UDA任务上取得不错的结果,但是在区分语义上相似的类时仍然存在困难,特别是当这些类在目标域中并不频繁出现时,例如摩托车只占总像素数的0.1%。图1给出了摩托车类对和自行车类对容易混淆的例子,道路类对和人行道类对也容易混淆。对于上述现象,我们提出了一个假设。由于来自目标域的数据,,没有标记,因此通过将映射到源域来学习语义对应,例如,通过基于GAN的图像级风格转移和通过伪标签模拟。这可以看做以一种弱监督的方式学习域适应函数。这导致近似的视觉表征,从而导致识别的不准确性。此外,我们对不同方法中的相似类别的特征进行了统计分析,表1列举了两组易混淆类别。可以看到在只有源域数据训练时,源域中相似类别虽然距离较近但是分布紧凑重叠较少,但是直接用这个模型统计目标域特征发现他们的重叠比较严重,一个经典的方法DACS[x],在引入ClassMix对两个域的图像进行混合操作后缓解了重叠的问题。

表1 两组相似类比的特征统计

图1 域适应过程混淆例子

2. 方法

2.1 基线方法DACS

在mean-teacher训练框架下为目标域图像生成伪标签,然后用目标域和源域数据一起训练网络是一种常用的方法,在此基础上,DACS[1]提出用混合域M的训练数据替换来自目标域的训练数据。混合域M的训练数据生成过程:在每次训练迭代中,对带有(真或伪)标签的源图像和目标图像进行采样并裁剪成相同的分辨率。接下来,从源域标签中随机选择一个类子集,并得到一个与图像相同大小的二进制掩码,属于选中类别的位置为1其他为0,再根据此掩码将源域和目标域数据混合在一起。

2.2 为UDA分割任务提供域无关先验

为了获得对目标域特征更准确的估计,我们参考贝叶斯理论,后验分布由先验和似然组成。在我们的设置中,似然来自目标数据集,没有足够的数据来保证准确的估计。解决方案是为每个类别引入信息先验,这些先验和域无关也不会受域差异的影响。我们找到两种先验,一种是one-hot编码,另外一种借助word2vec[2]来为每个类别生成编码。这样每个类别都有一个先验编码向量,然后根据每个图像的标签,按位置替换为先验编码,构成一个先验编码图,如图2。然后我们将其和网络提取的是视觉特征进行约束。为了让视觉特征更多保留和类别语义相关的信息减少域相关的信息,二者通过简单转换后用L2 loss拉近。这就是我们新引入的DAP loss。

该损失函数与DACS的分割交叉熵函数相加构成完整的训练过程。

图2 先验编码图构成过程

2.3 一些思考

据我们所知,这是第一个将文本编码嵌入到UDA分割的工作,并产生了相当大的准确性增益,这证明了语言线索协助视觉识别的有效性。然而,这还只是一个初步的解决方案,还可以发现一些可能的方向

1)加强文本嵌入。目前使用的word2vec的特点是它不考虑同一个语义对应不同的单词。我们试图通过搜索语义相似的单词来增强先验,但获得的准确性几乎没有提高。这可能需要探索文本世界的复杂机制。

2)构建领域不可知论但视觉感知的先验。这就回答了一个问题:什么样的图像数据被认为可以提供域无关信息? 答案可能存在于广义数据集,如ImageNet[3]或Conceptual Captioning [4],或甚至预先训练的图像文本模型,如CLIP[5]。这可能是解开领域相关的信息以避免过度拟合的一个主要挑战,值得我们继续探索下去。

3. 实验结果

3.1 数据和设置

我们在常用的街景分割场景中进行评估,将信息从合成域迁移到真实域。GTAv和SYNTHIA作为复合域数据集,Cityscapes作为真实域。为了与其他方法保持一致,我们使用Deeplabv2框架下RseNet101基本模型作为我们的图像编码器,ASPP分类器作为输出层。

3.2 GTAv迁移到Cityscapes

我们首先在从GTAv到Cityscapes的域适应分割任务上评估DAP。DAP在19个级别上达到55.0%的平均IOU,这个结果超过基线2.9%,也优于其他单阶段和单模型训练的方法。我们将DAP的输出作为伪标签输入ProDA的第1阶段,然后保持ProDA[6]第2和第3阶段训练方法不变。我们将结果提升了2.3%,是目前最高的精度。

图4. GTAv迁移到Cityscapes结果比较。

3.3 SYNTHIA迁移到Cityscapes

将SYNTHIA转移到Cityscapes的结果,如表所示,同样比DACS在13类和16类上均提升了1.3%,比ProDA提升了4.4%和2.3%。再次验证了我们方法的有效性。

图5. SYNTHIA迁移到Cityscapes结果比较。

3.4 DAP对于易混淆类别的辨别

在GTAv到Cityscapes迁移实验中,自行车和摩托车的细分iou分别从42.6%、25.1%提高到53.1%、42.2%。从SYNTHIA到Cityscapes,这两个类别平均提升2.4%。我们在图6中可视化了一个分割的例子。除了定性观察自行车与摩托车、道路与人行道的区分改善之外,我们还注意到这一改善背后的原因是这些易混淆类别的特征分布得到改善。这与表1中显示的统计数据一致,表明DAP减少了自行车和摩托车的估计分布以及道路和人行道之间的IOU。

图6. GTA迁移到Cityscapes实验中自行车和摩托车分割结果对比,以及特征分布对比。

4. 结语

到这里我们的文章就分享完了,论文中还有更详细的消融实验来证明我们方法的有效性,就不在这里详细列举,更多内容欢迎关注我们的原文。

论文:https://arxiv.org/abs/2204.02684

参考文献

[1] Wilhelm Tranheden, Viktor Olsson, Juliano Pinto, and Lennart Svensson. Dacs: Domain adaptation via crossdomain mixed sampling. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 1379–1389, 2021.

[2] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems, pages 3111–3119, 2013.

[3] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009.

[4] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages2556–2565, 2018.

[5] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[6] Pan Zhang, Bo Zhang, Ting Zhang, Dong Chen, YongWang, and Fang Wen. Prototypical pseudo label denoising and target structure learning for domain adaptive semantic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12414–12424, 2021.

点击关注,第一时间了解华为云新鲜技术~

【CVPR2022】用于域适应语义分割的域无关先验的更多相关文章

  1. 多篇开源CVPR 2020 语义分割论文

    多篇开源CVPR 2020 语义分割论文 前言 1. DynamicRouting:针对语义分割的动态路径选择网络 Learning Dynamic Routing for Semantic Segm ...

  2. TensorFlow中的语义分割套件

    TensorFlow中的语义分割套件 描述 该存储库用作语义细分套件.目标是轻松实现,训练和测试新的语义细分模型!完成以下内容: 训练和测试方式 资料扩充 几种最先进的模型.轻松随插即用 能够使用任何 ...

  3. R-CNN论文翻译——用于精确物体定位和语义分割的丰富特征层次结构

    原文地址 我对深度学习应用于物体检测的开山之作R-CNN的论文进行了主要部分的翻译工作,R-CNN通过引入CNN让物体检测的性能水平上升了一个档次,但该文的想法比较自然原始,估计作者在写作的过程中已经 ...

  4. 笔记︱图像语义分割(FCN、CRF、MRF)、论文延伸(Pixel Objectness、)

    图像语义分割的意思就是机器自动分割并识别出图像中的内容,我的理解是抠图- 之前在Faster R-CNN中借用了RPN(region proposal network)选择候选框,但是仅仅是候选框,那 ...

  5. 语义分割--全卷积网络FCN详解

    语义分割--全卷积网络FCN详解   1.FCN概述 CNN做图像分类甚至做目标检测的效果已经被证明并广泛应用,图像语义分割本质上也可以认为是稠密的目标识别(需要预测每个像素点的类别). 传统的基于C ...

  6. CVPR2020论文解读:三维语义分割3D Semantic Segmentation

    CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation  for 3 ...

  7. CVPR2020论文解读:手绘草图卷积网络语义分割

    CVPR2020论文解读:手绘草图卷积网络语义分割 Sketch GCN: Semantic Sketch Segmentation with Graph Convolutional Networks ...

  8. 细粒度语义分割:ICCV2019论文解析

    细粒度语义分割:ICCV2019论文解析 Fine-Grained Segmentation Networks: Self-Supervised Segmentation for Improved L ...

  9. FCN与U-Net语义分割算法

    FCN与U-Net语义分割算法 图像语义分割(Semantic Segmentation)是图像处理和是机器视觉技术中关于图像理解的重要一环,也是 AI 领域中一个重要的分支.语义分割即是对图像中每一 ...

  10. CVPR2020:点云弱监督三维语义分割的多路径区域挖掘

    CVPR2020:点云弱监督三维语义分割的多路径区域挖掘 Multi-Path Region Mining for Weakly Supervised 3D Semantic Segmentation ...

随机推荐

  1. nginx学习(基本概念、配置和命令、反向代理、负载均衡、动静分离)

    之前都只会照着网上的nginx配置和代码什么的直接拿过来用,但是没系统学习过,所以来系统学习一下nginx内容. 建议服务器不要关闭防火墙,按需开启端口就好,然后云服务器也要设置SSH密钥,安全性高一 ...

  2. Dubbo 路由及负载均衡性能优化

    作者:vivo 互联网中间件团队- Wang Xiaochuang 本文主要介绍在vivo内部针对Dubbo路由模块及负载均衡的一些优化手段,主要是异步化+缓存,可减少在RPC调用过程中路由及负载均衡 ...

  3. 长程 Transformer 模型

    Tay 等人的 Efficient Transformers taxonomy from Efficient Transformers: a Survey 论文 本文由 Teven Le Scao.P ...

  4. .Net Core3中微信退款证书本地调试正常读取证书,在服务器IIS中加载不到证书文件

    如图,在开发微信退款功能时,需要用到微信提供的证书文件.本地开发调试时是正常的,但放到服务器(WinServer 2012 R2)中,则报错提示找不到文件. 网上找了一堆骚操作都没什么卵用,最后在其中 ...

  5. 记一次 OSS 大批量文件下载的实现 → bat脚本不好玩!

    开心一刻 一天夜里,侄女跟我哥聊天 侄女一脸期待的看着我哥:爸爸,你说妈妈和奶奶谁漂亮啊? 我哥不慌不忙的拿起一粒瓜子,轻声说道:为啥没有你啊? 侄女笑容渐起,似乎得到了她想要的回答,仍继续问道:那妈 ...

  6. SNN_文献阅读_Recent Advances and New Frontiers in Spiking Neural Networks

    Recent Advances and New Frontiers in Spiking Neural Networks 基本要素:包括神经元模型.神经元中脉冲序列的编码方法.神经网络中每个基本层的拓 ...

  7. 如何通过 wireshark 捕获 C# 上传的图片

    一:背景 1. 讲故事 这些天计划好好研究下tcp/ip,以及socket套接字,毕竟工控中设计到各种交互协议,如果只是模模糊糊的了解,对分析此类dump还是非常不利的,而研究协议最好的入手点就是用抓 ...

  8. 递归与分治思想:汉诺塔(递归 && 分治思想)

    1 //64个盘子 2 //划分成小问题:1.将上面的63个盘子从x借助z移动到y上 3 2.将第64个盘子从x移动到z上 4 3.将y上的63个盘子借助x移动到z上 5 详解:https://www ...

  9. 【Android】如何去掉默认标题栏

    1.在AndroidManifest.xml文件中修改并添加以下代码 android:theme="@style/Theme.AppCompat.NoActionBar" 2.在你 ...

  10. h5移动端使用video实现拍照、上传文件对象、选择相册,做手机兼容。

    html部分 <template> <div class="views"> <video style="width: 100vw; heig ...