论文解读(DWL)《Dynamic Weighted Learning for Unsupervised Domain Adaptation》
[ Wechat:Y466551 | 付费咨询,非诚勿扰 ]
论文信息
论文标题:Dynamic Weighted Learning for Unsupervised Domain Adaptation
论文作者:Jihong Ouyang、Zhengjie Zhang、Qingyi Meng
论文来源:2023 aRxiv
论文地址:download
论文代码:download
视屏讲解:click
1 介绍
   
2 方法
2.1 出发点
  
反应的问题:随着域对齐的实现,判别性在下降;
2.2 模型框架
  
2.3 Sample Weighting
$\begin{array}{l}\hat{x}_{i}^{s}=a\left(1+\frac{n_{t}}{n_{s}}\right) x_{i}^{s} \quad, \quad i=1,2, \ldots, n_{s} \\\hat{x}_{j}^{t}=a\left(1+\frac{n_{s}}{n_{t}}\right) x_{j}^{t} \quad, \quad j=1,2, \ldots, n_{t}\end{array} $
其中,$a \in(0,1]$ 是一个控制样本加权程度的超参数。
2.4 Domain Alignment Learning and Class Discrimination Learning
域对齐(对抗性学习):
$\begin{array}{r} \underset{\theta_{g}}{\text{min}} \; \underset{\theta_{d}}{\text{max}} \; \mathcal{L}_{d a}\left(\theta_{g}, \theta_{d}\right)=\mathbb{E}_{x_{i}^{s} \sim \mathcal{D}_{s}} \log \left[D\left(G\left(\hat{x}_{i}^{s}\right)\right)\right] +\mathbb{E}_{x_{j}^{t} \sim \mathcal{D}_{t}} \log \left[1-D\left(G\left(\hat{x}_{j}^{t}\right)\right)\right]\end{array}$
鉴别性特征学习:
$\begin{aligned} \underset{\theta_{g}, \theta_{c}}{\text{min}} \; \underset{\theta_{c_{1}}, \theta_{c_{2}}}{\text{max}} \; \mathcal{L}_{c d} & \left(\theta_{g}, \theta_{c}, \theta_{c_{1}}, \theta_{c_{1}}\right) \\= & \mathbb{E}_{x_{j}^{t} \sim \mathcal{D}_{t}}\left\|C_{1}\left(G\left(\hat{x}_{j}^{t}\right)\right)-C_{2}\left(G\left(\hat{x}_{j}^{t}\right)\right)\right\|_{1} \\& +\left\|C\left(G\left(\hat{x}_{j}^{t}\right)\right)-C_{1}\left(G\left(\hat{x}_{j}^{t}\right)\right)\right\|_{1} \\& +\left\|C\left(G\left(\hat{x}_{j}^{t}\right)\right)-C_{2}\left(G\left(\hat{x}_{j}^{t}\right)\right)\right\|_{1}\end{aligned}$
Note:$C$、$C_{1}$、$C_{2}$ 是使用源域数据预训练得到的分类器。首先,固定 $G$ 和 $C$ 最大化 $C_1$ 和 $C_2$ 的差异。然后,固定 $C_{1}$ 和 $C_{2}$ 训练 $G$ 和 $C$。
2.5 Dynamic Weighted Learning
域对齐度量 [ MMD ]:
$\operatorname{MMD}\left(\mathcal{D}_{s}, \mathcal{D}_{t}\right)=\left\|\mathbb{E}_{x_{i}^{s} \sim \mathcal{D}_{s}} G\left(\hat{x}_{i}^{s}\right)-\mathbb{E}_{x_{j}^{t} \sim \mathcal{D}_{t}} G\left(\hat{x}_{j}^{t}\right)\right\|^{2}$
鉴别性度量 [ LDA ]:
$\underset{\mathbf{W}}{\text{max}} \; J(\mathbf{W})=\frac{\operatorname{tr}\left(\mathbf{W}^{\top} \mathbf{S}_{\mathbf{b}} \mathbf{W}\right)}{\operatorname{tr}\left(\mathbf{W}^{\top} \mathbf{S}_{\mathbf{w}} \mathbf{W}\right)}$
其中,$\mathbf{S}_{\mathrm{b}}$ 为类间散射矩阵,$\mathbf{S}_{\mathbf{w}}$ 为类内散射矩阵。
注意:$J(\mathbf{W})$ 越大,具有更好的辨别性。
由于上述两个评价标准不在一个数量级上,本文对其进行了归一化处理:
$\begin{array}{l}\operatorname{\text{M}} \tilde{\text{M}} \text{D}\left(\mathcal{D}_{s}, \mathcal{D}_{t}\right)=\frac{\operatorname{MMD}\left(\mathcal{D}_{s}, \mathcal{D}_{t}\right)-\operatorname{MMD}\left(\mathcal{D}_{s}, \mathcal{D}_{t}\right)_{\min }}{\operatorname{MMD}\left(\mathcal{D}_{s}, \mathcal{D}_{t}\right)_{\max }-\operatorname{MMD}\left(\mathcal{D}_{s}, \mathcal{D}_{t}\right)_{\min }} \end{array}$
$\tilde{J}(\mathbf{W})=\frac{J(\mathbf{W})-J(\mathbf{W})_{\min }}{J(\mathbf{W})_{\max }-J(\mathbf{W})_{\min }}$
构造一个动态平衡因子:
$\tau=\frac{\operatorname{M} \tilde{\mathbf{M}}\left(\mathcal{D}_{s}, \mathcal{D}_{t}\right)}{\operatorname{M} \tilde{\mathbf{M}}\left(\mathcal{D}_{s}, \mathcal{D}_{t}\right)+(1-\tilde{J}(\mathbf{W}))}$
注意:$\text{M} \tilde{\text{M}} \text{D}\left(\mathcal{D}_{s}, \mathcal{D}_{t}\right)$ 越小代表这域对齐效果越好,$1-\tilde{J}(\mathbf{W})$ 越小代表这鉴别性特征越好。
- 当域对齐的程度远优于类的可辨别性时,$\text{M} \tilde{\text{M}} \text{D}\left(\mathcal{D}_{s}, \mathcal{D}_{t}\right)$ 接近 $0$,$1-\tilde{J}(\mathbf{W}) $ 接近 $1$ ,$\tau$ 接近 $0$ ;
- 当域对齐程度远低于类别识别程度时,$\text{M} \tilde{\text{M}} \text{D}\left(\mathcal{D}_{s}, \mathcal{D}_{t}\right)$ 接近 $1$,$1-\tilde{J}(\mathbf{W}) $ 接近 $0$ ,$\tau$ 接近 $1$ ;
基于 $\tau$ 的良好特性,采用 $\tau$ 作为域对齐损失的权重,$1−\tau $ 作为类鉴别损失的权重。因此,得到的域对齐和类鉴别的动态加权模型如下:
$\begin{array}{l} \underset{\theta_{g}, \theta_{c}}{\text{min}} \;\; \underset{\theta_{\theta_{d}, \theta_{c_{1}}, \theta_{c_{2}}}}{\text{max}} \tau \cdot \mathcal{L}_{d a}\left(\theta_{g}, \theta_{d}\right)+ (1-\tau) \cdot \mathcal{L}_{c d}\left(\theta_{g}, \theta_{c}, \theta_{c_{1}}, \theta_{c_{2}}\right)\end{array}$
- 当领域对齐学习的有效性远远低于类辨别学习时,模型增加了域对齐学习的权重;
- 当鉴别学习的学习效果远低于域对齐学习时,模型增加鉴别学习的权重;
在这种动态加权学习机制下,可以保持域对齐学习与类辨别学习之间的一致性,从而避免过度的域对齐或类可辨别性。
2.6 Overall Training Objective
总体训练目标整合了样本加权、领域对齐学习、类判别学习和动态加权学习。此外,还需要最小化标记源样本的期望源误差。最终的极大极小目标:
$\begin{array}{l}\underset{\theta_{g}, \theta_{c}}{\text{min}} \;\;\underset{\theta_{d}, \theta_{c_{1}}, \theta_{c_{2}}}{\text{max}}\sum_{i=1}^{t_{s}} \mathcal{L}_{c e}\left(C\left(G\left(x_{i}^{s} ; \theta_{g}\right) ; \theta_{c}\right), y_{i}^{s}\right) +\tau \cdot \mathcal{L}_{d a}\left(\theta_{g}, \theta_{d}\right)+(1-\tau) \cdot \mathcal{L}_{c d}\left(\theta_{g}, \theta_{c}, \theta_{c_{1}}, \theta_{c_{2}}\right)\end{array}$
3 实验
分类结果
  
收敛性分析
  
对于每个子图,红色曲线的左轴表示分类误差,蓝色曲线的右轴表示平衡因子 $\tau$ 的值。可以发现,随着迭代,它们两者都逐渐收敛到一个平坦的值。这意味着随着 $\tau$ 的减少,使得类的可鉴别性被强调,使得分类误差也减小。
在迭代过程中,当 $\tau$ 的变化相对明显时,识别精度的提高也相对明显。我们将 $\tau$ 的初始值设为 $0.5$,可以发现 $\tau$ 在第一个时期急剧下降到 $0.5$ 以下,说明该模型的对齐性相对较好,但可辨别性相对较差。
混淆矩阵可视化
  
对齐度和可鉴别性度的分析
  
消融实验
  
  
论文解读(DWL)《Dynamic Weighted Learning for Unsupervised Domain Adaptation》的更多相关文章
- 论文解读(CDCL)《Cross-domain Contrastive Learning for Unsupervised Domain Adaptation》
		论文信息 论文标题:Cross-domain Contrastive Learning for Unsupervised Domain Adaptation论文作者:Rui Wang, Zuxuan ... 
- 迁移学习(DCCL)《Domain Confused Contrastive Learning for Unsupervised Domain Adaptation》
		论文信息 论文标题:Domain Confused Contrastive Learning for Unsupervised Domain Adaptation论文作者:Quanyu Long, T ... 
- 论文解读(CDTrans)《CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation》
		论文信息 论文标题:CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation论文作者:Tongkun Xu, Weihu ... 
- 论文解读(ToAlign)《ToAlign: Task-oriented Alignment for Unsupervised Domain Adaptation》
		论文信息 论文标题:ToAlign: Task-oriented Alignment for Unsupervised Domain Adaptation论文作者:Guoqiang Wei, Cuil ... 
- 迁移学习(CLDA)《CLDA: Contrastive Learning for Semi-Supervised Domain Adaptation》
		论文信息 论文标题:CLDA: Contrastive Learning for Semi-Supervised Domain Adaptation论文作者:Ankit Singh论文来源:NeurI ... 
- 论文解读(CAN)《Contrastive Adaptation Network for Unsupervised Domain Adaptation》
		论文信息 论文标题:Contrastive Adaptation Network for Unsupervised Domain Adaptation论文作者:Guoliang Kang, Lu Ji ... 
- 迁移学习《Asymmetric Tri-training for Unsupervised Domain Adaptation》
		论文信息 论文标题:Asymmetric Tri-training for Unsupervised Domain Adaptation论文作者:Kuniaki Saito, Y. Ushiku, T ... 
- 虚假新闻检测(CADM)《Unsupervised Domain Adaptation for COVID-19 Information Service with Contrastive Adversarial Domain Mixup》
		论文信息 论文标题:Unsupervised Domain Adaptation for COVID-19 Information Service with Contrastive Adversari ... 
- 迁移学习(IIMT)——《Improve Unsupervised Domain Adaptation with Mixup Training》
		论文信息 论文标题:Improve Unsupervised Domain Adaptation with Mixup Training论文作者:Shen Yan, Huan Song, Nanxia ... 
- 迁移学习(TSRP)《Improving Pseudo Labels With Intra-Class Similarity for Unsupervised Domain Adaptation》
		论文信息 论文标题:Improving Pseudo Labels With Intra-Class Similarity for Unsupervised Domain Adaptation论文作者 ... 
随机推荐
- UIOTOS:一款无门槛的前端0代码搭建工具
			什么是UIOTOS? UIOTOS中文名称前端大师,是一款基于图形技术的前端0代码工具,支持通过连线和嵌套无门槛来搭建各类复杂的的交互界面,包括后台管理系统.组态数据大屏等,实现跟代码开发媲美的效果. ... 
- 【JS逆向】【多图+附源码】 2023 python获取某蜂窝 _sn
			声明:本文/代码/软件/网站等内容仅供学习交流使用,不涉及任何商业目的或利益.如有侵犯版权或其他问题,请联系作者删除.作者对本文/代码/软件/网站等内容的正确性.完整性.可靠性.安全性等不作任何保证, ... 
- 基于APM模式的异步实现及跨线程操作窗体或控件方法的实现示例
			最近在一家某电力外派公司开发相关于GIS的功能,在实现代码的过程中出现了一些常见的问题比如: 1.跨线程执行窗体或控件操作(直接使用委拖) 2.异步模式执行某长时间耗时方法 经过一系列摸索可算找到解决 ... 
- 2021-04-01:给定一个正方形矩阵matrix,原地调整成顺时针90度转动的样子。[[a,b,c],[d,e,f],[g,h,i]]变成[[g,d,a],[h,e,b],[i,f,c]]。
			2021-04-01:给定一个正方形矩阵matrix,原地调整成顺时针90度转动的样子.[[a,b,c],[d,e,f],[g,h,i]]变成[[g,d,a],[h,e,b],[i,f,c]]. 福大 ... 
- openstack部署2
			检查服务,查看dashboard页面有哪些功能 检查服务状态 检查计算节点,控制节点服务是up状态 检查网络节点是True的状态.这里的每个计算节点,都是一个neutron的客户端. 查看dashbo ... 
- 使用taro+canvas实现微信小程序的图片分享功能
			业务场景 二轮充电业务中,用户充电完成后在订单详情页展示订单相关信息,用户点击分享按钮唤起微信小程序分享菜单,将生成的图片海报分享给微信好友或者下载到本地,好友可通过扫描海报中的二维码加群领取优惠. ... 
- Random库用法详解
			梅森旋转算法实现 基本随机数函数 seed(a=None): 初始化给定的随机数种子,默认为当前系统时间. 只要随机数种子相同,产生的随机数序列也相同. random(): 生成一个[0.0,1.0] ... 
- Java的Atomic原子类
			Java SDK 并发包里提供了丰富的原子类,我们可以将其分为五个类别,这五个类别提供的方法基本上是相似的,并且每个类别都有若干原子类. 对基本数据类型的变量值进行原子更新: 对对象变量的指向进行原子 ... 
- 如何在long-running task中调用async方法
			什么是 long-running thread long-running task 是指那些长时间运行的任务,比如在一个 while True 中执行耗时较长的同步处理. 下面的例子中,我们不断从队列 ... 
- LLE算法在自然语言生成中的应用:实现文本到语音的情感迁移
			目录 自然语言生成(Natural Language Generation,NLP)是人工智能领域的一个分支,它利用大量的文本数据训练出语言模型,从而实现对自然语言的生成和理解.在NLP中,情感迁移( ... 
