Note：[ wechat：Y466551 | 可加勿骚扰，付费咨询 ]

论文信息

论文标题：Knowledge distillation for BERT unsupervised domain adaptation
论文作者：Minho Ryu、Geonseok Lee、Kichun Lee
论文来源：2022 aRxiv
论文地址：download
论文代码：download
视屏讲解：click

1 介绍

　　出发点：域偏移导致的性能下降；

　　问题定义：UDA

　　比较有意思，这篇工作被抄袭了，但是抄袭的家伙还成功发论文了.............

2 相关工作

　　知识蒸馏 [7,8]（KD）最初是一种模型压缩技术，旨在训练一个紧凑的模型（学生），以便将一个训练良好的更大的模型（教师）的知识转移到学生模型[28,29]。KD 可以通过最小化以下目标函数来表示：

　　　　$\mathcal{L}_{K D}=t^{2} \sum_{k}-\operatorname{softmax}\left(p_{k}^{T} / t\right) \times \log \left(\operatorname{softmax}\left(p_{k}^{S} / t\right)\right)$

　　其中，$p^{S}$ 和 $p^{T}$ 分别为学生模型和教师模型的预测，温度值 $t$ 控制着知识转移的程度。

　　推导过程：

　　　　$K L(p \| q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q(x i)}\right)$

　　　　$\begin{array}{l} K L(p \| q)&=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right)\\&=H(p(x)) -\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right)\end{array}$

　　注意：$P$ 代表着真实分布， $Q$ 代表着模型分布；

　　注意：学生模型训练时，教师模型的参数是固定的，因此 $H(p(x))$ 为常数，可以去掉；

　　注意：标准的监督训练，由于使用的是硬标签做监督训练，所以在重复训练的时候容易造成过拟合。由于较大的 $t$ 值产生较软的概率分布，知识蒸馏在结合领域自适应方法可以缓解这一问题。

3 方法

3.1 模型框架

3.2 Adversarial adaptation with distillation

Step 1: fine-tune the source encoder and the classifier

　　使用源域数据进行标准的监督训练，训练 $E_s$ 和 $C$：

　　　　$\underset{E_{S}, C}{\text{min}} \; \mathcal{L}_{S}\left(\mathbf{X}_{S}, \mathbf{y}_{S}\right)=\mathbb{E}_{\left(\boldsymbol{x}_{s}, y_{s}\right) \sim\left(\mathbb{X}_{S}, \mathbb{Y}_{S}\right)}-\sum_{k=1}^{K} \mathbb{1}_{\left[k=y_{s}\right]} \log C\left(E_{S}\left(\boldsymbol{x}_{S}\right)\right)$

Step 2: adapt the target encoder via adversarial adaptation with distillation

　　固定 $E_s$ 的参数，并使用 $E_s$ 初始化 $E_t$ 的参数，接着进行对抗性训练：

　　　　$\begin{array}{l}\underset{D}{\text{min}} \; \mathcal{L}_{\text {dis }}\left(\mathbf{X}_{S}, \mathbf{X}_{T}\right)=\mathbb{E}_{\boldsymbol{x}_{s} \sim \mathbb{X}_{S}}-\log D\left(E_{S}\left(\boldsymbol{x}_{s}\right)\right)+\mathbb{E}_{\boldsymbol{x}_{t} \sim \mathbb{X}_{T}}-\log \left(1-D\left(E_{t}\left(\boldsymbol{x}_{t}\right)\right)\right)\\\underset{E_{t}}{\text{min}} \; \mathcal{L}_{g e n} \left(\mathbf{X}_{T}\right)=\mathbb{E}_{\boldsymbol{x}_{t} \sim \mathbb{X}_{T}}-\log D\left(E_{t}\left(\boldsymbol{x}_{t}\right)\right)\end{array}$

　　然而，由于无法使用类标签，该公式很容易导致灾难性的遗忘，从而导致分类性能下降。对于一个使用大的 $t$ 的知识蒸馏模型，它不仅可以使得对抗性训练稳定，还可以良好的保存类信息。因此，引入了知识蒸馏损失：

　　　　$\mathcal{L}_{K D}\left(\mathbf{X}_{S}\right)=t^{2} \times \mathbb{E}_{\boldsymbol{x}_{s} \sim \mathbb{X}_{S}} \sum_{k=1}^{K}-\operatorname{softmax}\left(p_{k}^{S} / t\right) \times \log \left(\operatorname{softmax}\left(p_{k}^{T} / t\right)\right)$

　　其中，$p^{S}=C\left(E_{S}\left(\boldsymbol{x}_{s}\right)\right)$、$\boldsymbol{p}^{T}=C\left(E_{t}\left(\boldsymbol{x}_{s}\right)\right)$；

　　因此，训练目标编码器 $E_{t}$ 的最终目标函数变为：

　　　　$\underset{E_{t}}{\text{min}} \;\mathcal{L}_{T}\left(\mathbf{X}_{S}, \mathbf{X}_{T}\right)=\mathcal{L}_{\text {gen }}\left(\mathbf{X}_{T}\right)+\mathcal{L}_{K D}\left(\mathbf{X}_{S}\right)$

Step 3: test the target encoder on the target data

　　使用训练好的目标编码器 $E_t$ 和分类器 $C$ 对用于测试的目标数据情绪极性标签预测如下：

　　　　$\hat{y}_{t}=\arg \max C\left(E_{t}\left(\boldsymbol{x}_{t}\right)\right)$

4 实验

跨域情感分析

论文解读（AAD）《Knowledge distillation for BERT unsupervised domain adaptation》的更多相关文章

论文解读（CDCL）《Cross-domain Contrastive Learning for Unsupervised Domain Adaptation》
论文信息论文标题:Cross-domain Contrastive Learning for Unsupervised Domain Adaptation论文作者:Rui Wang, Zuxuan ...
论文解读（CDTrans）《CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation》
论文信息论文标题:CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation论文作者:Tongkun Xu, Weihu ...
论文解读（ToAlign）《ToAlign: Task-oriented Alignment for Unsupervised Domain Adaptation》
论文信息论文标题:ToAlign: Task-oriented Alignment for Unsupervised Domain Adaptation论文作者:Guoqiang Wei, Cuil ...
论文解读（CAN）《Contrastive Adaptation Network for Unsupervised Domain Adaptation》
论文信息论文标题:Contrastive Adaptation Network for Unsupervised Domain Adaptation论文作者:Guoliang Kang, Lu Ji ...
虚假新闻检测（CADM）《Unsupervised Domain Adaptation for COVID-19 Information Service with Contrastive Adversarial Domain Mixup》
论文信息论文标题:Unsupervised Domain Adaptation for COVID-19 Information Service with Contrastive Adversari ...
迁移学习（IIMT）——《Improve Unsupervised Domain Adaptation with Mixup Training》
论文信息论文标题:Improve Unsupervised Domain Adaptation with Mixup Training论文作者:Shen Yan, Huan Song, Nanxia ...
迁移学习（DCCL）《Domain Confused Contrastive Learning for Unsupervised Domain Adaptation》
论文信息论文标题:Domain Confused Contrastive Learning for Unsupervised Domain Adaptation论文作者:Quanyu Long, T ...
迁移学习（TSRP）《Improving Pseudo Labels With Intra-Class Similarity for Unsupervised Domain Adaptation》
论文信息论文标题:Improving Pseudo Labels With Intra-Class Similarity for Unsupervised Domain Adaptation论文作者 ...
迁移学习《Asymmetric Tri-training for Unsupervised Domain Adaptation》
论文信息论文标题:Asymmetric Tri-training for Unsupervised Domain Adaptation论文作者:Kuniaki Saito, Y. Ushiku, T ...
迁移学习《Efficient and Robust Pseudo-Labeling for Unsupervised Domain Adaptation》
论文信息论文标题:Efficient and Robust Pseudo-Labeling for Unsupervised Domain Adaptation论文作者:Hochang Rhee.N ...

随机推荐

[python] Python类型提示总结
Python3.5 版本引入了类型提示(Type Hints),它允许开发者在代码中显式地声明变量.函数.方法等的类型信息.这种类型声明不会影响 Python 解释器的运行,但可以让 IDE 和静态分 ...
Ansible中的变量
Ansible中的变量目录 Ansible中的变量变量概述变量定义的方式变量的优先级如何定义变量 playbook中定义变量 vars_ﬁle中定义变量系统内置变量 inventory定义 ...
2022-12-08：给定n棵树，和两个长度为n的数组a和b i号棵树的初始重量为a[i]，i号树每天的增长重量为b[i] 你每天最多能砍1棵树，这天收益 = 砍的树初始重量 + 砍的树增长到这天的总
2022-12-08:给定n棵树,和两个长度为n的数组a和b i号棵树的初始重量为a[i],i号树每天的增长重量为b[i] 你每天最多能砍1棵树,这天收益 = 砍的树初始重量 + 砍的树增长到这天的总 ...
2020-11-30：java中，卡表和记忆集的区别？
福哥答案2020-12-04:[答案来自此链接:](http://bbs.xiangxueketang.cn/question/530)这两个都是G1收集器中的概念记忆集,RemeberSet,用来记 ...
Element Cascader 级联选择器去除空叶子节点
此处以后端获取部门级联List为例以下为数据结构 { data: { children: [ 0:{childre:[ 0:{}, 1:{} ]}, 1:{}, 2:{}, 3:{}, 4:{}, ...
Java网络编程----通过实现简易聊天工具来聊聊BIO
IO模型即输入输出模型,我们今天主要来聊的是java网络编程中的IO模型---BIO模型.BIO即阻塞式IO,Blocking IOblocking [ˈblɒkɪŋ] v. 堵塞; 阻塞; 堵住(某 ...
原来.NET写的Linux桌面这么好看？
如何使用Blazor在Linux平台下运行Desktop程序本文将讲解如何使用Blazor运行跨平台应用,应用到的技术有以下几点 Blazor Masa Blazor Photino.Blazor ...
代码随想录算法训练营Day35 贪心算法
代码随想录算法训练营代码随想录算法训练营Day35 贪心算法| 860.柠檬水找零 406.根据身高重建队列 452. 用最少数量的箭引爆气球 860.柠檬水找零题目链接:860.柠檬水找零在柠 ...
rest framwork 4 分页功能
分页功能: 常遇到问题,当数据记录超过1000万条,如何进行分页显示问题,这时就考虑分页功能, restframework 分页实现有三种第一种:看n页,每页显示n条数据: PageNumberPa ...
基于drawio构建流程图编辑器
基于drawio构建流程图编辑器 drawio是一款非常强大的开源在线的流程图编辑器,支持绘制各种形式的图表,提供了Web端与客户端支持,同时也支持多种资源类型的导出. 描述在我们平时写论文.文档时 ...

论文解读（AAD）《Knowledge distillation for BERT unsupervised domain adaptation》