[ Wechat:Y466551 | 付费咨询,非诚勿扰 ]

论文信息

论文标题:Adaptive prototype and consistency alignment for semi-supervised domain adaptation
论文作者:Jihong Ouyang、Zhengjie Zhang、Qingyi Meng
论文来源:2023 aRxiv
论文地址:download 
论文代码:download
视屏讲解:click

1 介绍

  

2 问题定义

  Formally, the semi-supervised domain adaptation scenario constitutes a labeled source domain  $\mathcal{D}_{s}=\left\{\left(x_{i}^{s}, y_{i}^{s}\right)\right\}_{i=1}^{n_{s}}$  drawn from the distribution  $P$ . For the target domain, a labeled set  $\mathcal{D}_{t}=\left\{\left(x_{i}^{t}, y_{i}^{t}\right)\right\}_{i=1}^{n_{t}}$  and an unlabeled set  $\mathcal{D}_{u}=\left\{x_{i}^{u}\right\}_{i=1}^{n_{u}}$  drawn from distribution  $Q$  are given. The source and target domain are drawn from the same label space  $y=\{1,2, \ldots, K\}$ . Usually, the number of labeled samples in  $\mathcal{D}_{t}$  is minimal, e.g., one or three samples per class. SSDA aims to train the model on  $\mathcal{D}_{s}$, $\mathcal{D}_{t}$  and  $\mathcal{D}_{u}$  to correctly predict labels for samples in  $\mathcal{D}_{u} $.

3 方法

3.1 模型框架

  

3.2 Supervised training

  原型分类器(浅层):
    $\mathbf{p}(\mathbf{x})=\sigma\left(\frac{\mathbf{W}^{\mathrm{T}} \ell_{2}(F(\mathbf{x}))}{T}\right)  \quad\quad(1)$
   源域和目标域带标签监督训练:
    $\mathcal{L}_{C E}=-\mathbb{E}_{(\mathbf{x}, y) \in \mathcal{D}_{s}, \mathcal{D}_{t}} y \log (\mathbf{p}(\mathbf{x}))  \quad\quad(2)$

3.3 Adaptive prototype alignment

  利用目标域代标记数据计算原型:

    $\mathbf{c}_{k}^{\mathcal{T}}=\frac{1}{\left|\mathcal{D}_{k}\right|} \sum_{\left(x_{i}^{t}, y_{i}^{t}\right) \in \mathcal{D}_{k}} F\left(x_{i}^{t}\right)\quad\quad(3)$

  利用目标域未带标记的数据计算原型(mini-batch级别):

    $c_{k}^{u}=\frac{\sum_{i \in B_{t}} \mathbb{1}_{\left[k=\hat{y}_{i}\right]} F\left(x_{i}^{u}\right)}{\sum_{i \in B_{t}} \mathbb{1}_{\left[k=\hat{y}_{i}\right]}}\quad\quad(4)$

  Note:目标域未带标记样本使用分类器给出伪标签;

    $c_{k(m)}^{\mathcal{U}}=\eta c_{k}^{u}+(1-\eta) c_{k(m-1)}^{\mathcal{U}}\quad\quad(5)$

  利用 EMA 修改用目标域未带标记样本计算的原型:

    $c_{k(m)}^{\mathcal{U}}=\eta c_{k}^{u}+(1-\eta) c_{k(m-1)}^{\mathcal{U}}\quad\quad(6)$

  目标域总的原型:

    $c_{k}=\frac{\mathbf{c}_{k}^{\mathcal{T}}+c_{k(m)}^{\mathcal{U}}}{2}\quad\quad(7)$

  对于源域带标记数据,可以通过目标类原型距离函数得到概率分布如下:

    $p(y \mid x)=\frac{e^{-d\left(F(x), c_{y}\right)}}{\sum_{k} e^{-d\left(F(x), c_{k}\right)}}\quad\quad(8)$

  然后,计算总体源样本的原型损失如下:

    $\mathcal{L}_{A P A}=-\mathbb{E}_{\left(x_{i}^{s}, y_{i}^{s}\right) \in \mathcal{D}_{s}} \log p\left(y_{i}^{s} \mid x_{i}^{s}\right)\quad\quad(9)$

  小结阐述:使用目标域数据(带、不带标记)计算目标域原型,然后预测源域样本的类别,并使用源域标签做监督;

3.4 Consistency alignment

  如模型框架图所示,目标域未带标记数据被分为弱、强数据增强样本,对于弱数据增强样本,使用分类器得到硬标签,并计算交叉熵(基于阈值$\gamma$):

    $\left.\ell_{c r}=-\mathbb{1}\left(\max \left(\mathbf{p}_{w}\right)>\tau\right) \log \mathbf{p}\left(y=\hat{p} \mid \mathcal{S}\left(x_{i}^{u}\right)\right)\right)\quad\quad(10)$

  为了避免过拟合,使用多样性损失:

    $\ell_{k l d}=-\mathbb{1}\left(\max \left(\mathbf{p}_{w}\right)>\tau\right) \sum_{k=1}^{C} \frac{1}{C} \log \mathbf{p}\left(y=k \mid \mathcal{S}\left(x_{i}^{u}\right)\right)\quad\quad(11)$

  Note:KLD正则化鼓励预测结果接近均匀分布,从而使预测结果不会过拟合伪标签。

  因此,一致性对齐模块的整体损失函数可以表示如下:

    $\mathcal{L}_{C O N}=\mathbb{E}_{x_{i}^{u} \in \mathcal{D}_{u}}\left(\ell_{c r}+\lambda_{k l d} \ell_{k l d}\right)\quad\quad(12)$

3.5 Overall framework and training objective

  本文方法是基于MME [45]的,它采用对抗性学习来改进域间自适应的样本特征对齐。将MME[45]中提到的熵损失纳入到本文的损失函数中。总体损失函数是上述损失函数的和,如下:

    $\theta_{\mathcal{F}}=\underset{\theta_{\mathcal{F}}}{\arg \min } \mathcal{L}_{C E}+\mathcal{L}_{H}+\lambda_{1} \mathcal{L}_{A P A}+\lambda_{2} \mathcal{L}_{C O N}\quad\quad(13)$

    $\theta_{\mathcal{C}}=\underset{\theta_{\mathcal{A}}}{\arg \min } \mathcal{L}_{C E}-\mathcal{L}_{H}+\lambda_{1} \mathcal{L}_{A P A}+\lambda_{2} \mathcal{L}_{C O N}$

  其中:

    $\mathcal{L}_{H}=-\mathbb{E}_{x_{i}^{u} \in \mathcal{D}_{u}} \sum_{i=1}^{K} p\left(y=i \mid x_{i}^{u}\right) \log p\left(y=i \mid x_{i}^{u}\right)$

3.6 算法框架

  

4 实验

分类准确度

  

参数敏感性

  

  

消融实验

  

论文解读(APCA)《Adaptive prototype and consistency alignment for semi-supervised domain adaptation》的更多相关文章

  1. 论文解读(CDCL)《Cross-domain Contrastive Learning for Unsupervised Domain Adaptation》

    论文信息 论文标题:Cross-domain Contrastive Learning for Unsupervised Domain Adaptation论文作者:Rui Wang, Zuxuan ...

  2. 论文解读(CDTrans)《CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation》

    论文信息 论文标题:CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation论文作者:Tongkun Xu, Weihu ...

  3. 迁移学习()《Attract, Perturb, and Explore: Learning a Feature Alignment Network for Semi-supervised Domain Adaptation》

    论文信息 论文标题:Attract, Perturb, and Explore: Learning a Feature Alignment Network for Semi-supervised Do ...

  4. 论文解读(AGC)《Attributed Graph Clustering via Adaptive Graph Convolution》

    论文信息 论文标题:Attributed Graph Clustering via Adaptive Graph Convolution论文作者:Xiaotong Zhang, Han Liu, Qi ...

  5. 论文解读(AGE)《Adaptive Graph Encoder for Attributed Graph Embedding》

    论文信息 论文标题:Adaptive Graph Encoder for Attributed Graph Embedding论文作者:Gayan K. Kulatilleke, Marius Por ...

  6. 论文解读(ToAlign)《ToAlign: Task-oriented Alignment for Unsupervised Domain Adaptation》

    论文信息 论文标题:ToAlign: Task-oriented Alignment for Unsupervised Domain Adaptation论文作者:Guoqiang Wei, Cuil ...

  7. 《Stereo R-CNN based 3D Object Detection for Autonomous Driving》论文解读

    论文链接:https://arxiv.org/pdf/1902.09738v2.pdf 这两个月忙着做实验 博客都有些荒废了,写篇用于3D检测的论文解读吧,有理解错误的地方,烦请有心人指正). 博客原 ...

  8. CVPR2020论文解读:OCR场景文本识别

    CVPR2020论文解读:OCR场景文本识别 ABCNet:  Real-time Scene Text Spotting with Adaptive Bezier-Curve Network∗ 论文 ...

  9. 自监督学习(Self-Supervised Learning)多篇论文解读(上)

    自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...

  10. 人工智能论文解读精选 | PRGC:一种新的联合关系抽取模型

    NLP论文解读 原创•作者 | 小欣   论文标题:PRGC: Potential Relation and Global Correspondence Based Joint Relational ...

随机推荐

  1. SQLite3数据库的介绍和使用(面向业务编程-数据库)

    SQLite3数据库的介绍和使用(面向业务编程-数据库) SQLite3介绍 SQLite是一种用C语言实现的的SQL数据库 它的特点有:轻量级.快速.独立.高可靠性.跨平台 它广泛应用在全世界范围内 ...

  2. Prism Sample 1

    这个样例版本上已经过时了,但与8.1版本仍然兼容. 在本版本中,指定启动项: App.xaml.cs: protected override void OnStartup(StartupEventAr ...

  3. HTML中meta标签的那些属性

    <meta> 标签是 HTML 中用于描述网页元信息的元素.它位于 <head> 部分,不会显示在页面内容中,但对于浏览器.搜索引擎等具有重要作用.主要作用有:定义文档的字符编 ...

  4. 百度飞桨(PaddlePaddle)- 张量(Tensor)

    飞桨 使用张量(Tensor) 来表示神经网络中传递的数据,Tensor 可以理解为多维数组,类似于 Numpy 数组(ndarray) 的概念.与 Numpy 数组相比,Tensor 除了支持运行在 ...

  5. 如何在 macOS 上进行 STM32 开发 All In One

    如何在 macOS 上进行 STM32 开发 All In One 网上好多 STM32 的教学视频的开发环境都是基于 Windows 系统的,对 macOS 用户直接劝退了 solutions 在 ...

  6. Odoo 13之十三 :开发之创建网站前端功能

    Odoo 13开发之创建网站前端功能 Odoo 起初是一个后台系统,但很快就有了前端界面的需求.早期基于后台界面的门户界面不够灵活并且对移动端不友好.为解决这一问题,Odoo 引入了新的网站功能,为系 ...

  7. 一次查找分子级Bug的经历,过程太酸爽了

    "Debugging is like trying to find a needle in a haystack, except the needle is also made of hay ...

  8. 谈谈ChatGPT是否可以替代人

    起初我以为我是搬砖的,最近发现其实只是一块砖,哪里需要哪里搬. 这两天临时被抽去支援跨平台相关软件开发,帮忙画几个界面.有了 ChatGPT 之后就觉得以前面向 Googel 编程会拉低我滴档次和逼格 ...

  9. 汇总低效的SQL语句

    背景 SQL专家云像"摄像头"一样,对环境.参数配置.服务器性能指标.活动会话.慢语句.磁盘空间.数据库文件.索引.作业.日志等几十个运行指标进行不同频率的实时采集,保存到SQL专 ...

  10. C# 客户端程序 Visual Studio 远程调试方法

    传统桌面客户端的远程调试相比UWP,ASP等项目来说,配置比较麻烦,因为它是非部署的应用程序,原理是复制编译的文件到远程计算机,通过网络来连接和VS的通信,本文主要讲述WPF,WinForm应用程序的 ...