Note：[ wechat：Y466551 | 可加勿骚扰，付费咨询 ]

论文信息

论文标题：Better Fine-Tuning via Instance Weighting for Text Classification
论文作者：
论文来源：2021 ACL
论文地址：download
论文代码：download
视屏讲解：click

1 介绍

　　出发点：域适应一类方法是对预先训练好的模型参数进行微调，以往的微调工作主要集中在预训练阶段，研究如何预训练一组最能帮助目标任务的参数；

　　方法简介：本文提出了一种基于实例加权的微调（IW-Fit）方法，该方法修正了微调阶段，以提高目标域的最终性能。IW-Fit在每个微调阶段动态调整实例权重，以实现两个目标： 1)有效地识别和学习目标域的具体知识；2)很好地保持源域和目标域之间的共享知识。在IW-Fit中使用的设计的实例加权度量是与模型无关的，这对于一般的基于DNN的分类器很容易实现。实验结果表明，IW-Fit可以持续提高目标域的分类精度。

　　贡献：

- 提出了基于实例加权的微调（IWFit），这是一种应用于给定一组预先训练好的参数的微调阶段的方法；
- 设计了两个模型不可知的指标来计算IW-Fit中使用的权重及其混合变量的权重；
- 进行了大量的实验来验证IW-Fit可以在几个基线上持续地提高目标域的分类精度；

2 方法

　　IW-Fit 中设计的加权度量应该实现两个目标：

1. 有效地识别和学习目标领域的特定知识；
2. 很好地保持源域和目标域之间的共享知识；

　　分类损失：

　　　　$f\left(\mathbf{y}, g_{\boldsymbol{\theta}}(\mathbf{x})\right)=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) \quad\quad(1)$

　　在早期的微调时期，参数接近于从尚未适应目标域的预训练分类器中获得的参数。一个实例有着较大的预测损失意味着预先训练好的分类器不能很好地拟合它，并且它可能包含更多的目标知识。因此，如果我们为这些实例分配了较大的权重，那么该模型将更加重视学习目标领域上的特定知识。这促使我们使用预测损失作为我们的第一个指标。

　　经过多次微调后，分类器可能会捕获更多的目标特定知识，而一些目标实例往往有很小的预测损失。为了使算法能够一致地区分这些实例，提出了另一个度量标准——历史预测损失的方差。对于具有特定目标知识的实例，它通常从很大的预测损失开始。如果它现在是一个很小的梯度，仍然可以通过计算其沿着微调时期的历史预测损失的方差来识别它。

　　另一方面，对于类似于源域的实例，它通常从早期时期的一个很小的预测损失开始。如果这样的实例在后期的微调时期受到巨大的损失，那么我们的微调分类器很可能会被具有目标特定知识的实例过度拟合。在这种情况下，这些实例会产生较大的预测损失以及较大的预测损失方差。给它们分配大的权重可以平衡我们的模型来实现第二个目标。

预测损失

　　$\text{Eq.1}$ 中的预测损失可作为分配实例权重的第一个度量值：

　　　　$w=\frac{1}{\tau}\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})+\epsilon\right) \quad\quad(2)$

　　其中，$\epsilon$ 是一个平滑常数，用于防止小损失的实例的权重为零，$\tau$ 是一个归一化常数，使小批量的权重的平均值等于 $1$ ；

历史预测损失方差

　　在 epoch 等于 $t$ 阶段，假设 $h^{t-1}= \left[f^{1}, \ldots, f^{t-1}\right]$ 是包含预测损失 $f=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) $ 的历史项的向量；

　　第二个度量可以根据预测损失的方差来计算：

　　　　$w=\frac{1}{\tau}\left(s t d\left(h^{t-1}\right)+\epsilon\right) \quad\quad(3)$

　　其中，$\operatorname{std}\left(h^{t-1}\right)$ 是估计的标准推导加上它在 $h^{t-1}$ 中的置信区间：

　　　　$\operatorname{std}\left(h^{t-1}\right)=\sqrt{\varsigma\left(h^{t-1}\right)+\frac{\varsigma^{2}\left(h^{t-1}\right)}{\left|h^{t-1}\right|-1}} \quad\quad(4)$

　　其中，$\varsigma^{2}\left(h^{t-1}\right)$ 为预测损失的方差，$\left|h^{t-1}\right|$ 为存储的预测损失数；

加权度量的混合变量

　　如上所述，预测损失在早期微调时期更有效，历史预测损失的方差应在一些后期使用。

　　因此，进一步提出了两个混合变体来结合这两个加权指标：

硬混合

　　前 $\eta$ 个 epoch 采用预测损失，然后切换到使用预测损失的方差：

　　　　$w=\frac{1}{\tau}\left[\mathbf{I}_{t \leq \eta} \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+\mathbf{I}_{t>\eta} \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(5)$

　　其中，当 $A$ 为真时，指标函数 $\mathbf{I}_{A}$ 等于 $1$，否则为 $0$；

软混合

　　在硬混合中，超参数 $\eta$ 需要仔细调整，并且这两个指标在每个微调时期都是互斥的。为了探索这两个指标的一个潜在的更灵活的组合，建议使用一种软混合变体作为：

　　　　$w=\frac{1}{\tau}\left[\beta \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+(1-\beta) \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(6)$

　　其中，$\beta$ 是一个在微调时期从 $1$ 线性下降到 $0$ 的平衡比。实验结果表明，在所有比较的微调方法中，采用软混合加权度量的信息量拟合方法通常表现最好。

3 实验

　　略

论文解读（IW-Fit）《Better Fine-Tuning via Instance Weighting for Text Classification》的更多相关文章

论文解读（ FGSM）《Adversarial training methods for semi-supervised text classification》
论文信息论文标题:Adversarial training methods for semi-supervised text classification论文作者:Taekyung Kim论文来源: ...
Object Detection · RCNN论文解读
转载请注明作者:梦里茶 Object Detection,顾名思义就是从图像中检测出目标对象,具体而言是找到对象的位置,常见的数据集是PASCAL VOC系列.2010年-2012年,Object D ...
面向个性化需求的在线云数据库混合调优系统 | SIGMOD 2022入选论文解读
SIGMOD 数据管理国际会议是数据库领域具有最高学术地位的国际性会议,位列数据库方向顶级会议之首.近日,腾讯云数据库团队的最新研究成果入选 SIGMOD 2022 Research Full Pap ...
[Pytorch框架] 4.1 Fine tuning 模型微调
文章目录 4.1 Fine tuning 模型微调 4.1.1 什么是微调为什么要微调迁移学习 Transfer Learning 二者关系 4.1.2 如何微调 4.1.3 注意事项 4.1.3 ...
（原）caffe中fine tuning及使用snapshot时的sh命令
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/5946041.html 参考网址: http://caffe.berkeleyvision.org/tu ...
itemKNN发展史----推荐系统的三篇重要的论文解读
itemKNN发展史----推荐系统的三篇重要的论文解读本文用到的符号标识 1.Item-based CF 基本过程: 计算相似度矩阵 Cosine相似度皮尔逊相似系数参数聚合进行推荐根据用户 ...
CVPR2019 | Mask Scoring R-CNN 论文解读
Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读作者 | 文永亮研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...
AAAI2019 | 基于区域分解集成的目标检测论文解读
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测论文解读作者 | 文永亮学 ...
Fine Tuning
(转载自:WikiPedia) Fine tuning is a process to take a network model that has already been trained for a ...
Gaussian field consensus论文解读及MATLAB实现
Gaussian field consensus论文解读及MATLAB实现作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 一.Introduction ...

随机推荐

2021-12-21：任务调度器。给你一个用字符数组 tasks 表示的 CPU 需要执行的任务列表。其中每个字母表示一种不同种类的任务。任务可以以任意顺序执行，并且每个任务都可以在 1 个单位时间
2021-12-21:任务调度器. 给你一个用字符数组 tasks 表示的 CPU 需要执行的任务列表.其中每个字母表示一种不同种类的任务.任务可以以任意顺序执行,并且每个任务都可以在 1 个单位时间 ...
2021-08-17：谷歌面试题扩展版，面值为1~N的牌组成一组，每次你从组里等概率的抽出1~N中的一张，下次抽会换一个新的组，有无限组，当累加和＜a时，你将一直抽牌，当累加和＞=a且＜b时，你将获胜
2021-08-17:谷歌面试题扩展版,面值为1N的牌组成一组,每次你从组里等概率的抽出1N中的一张,下次抽会换一个新的组,有无限组,当累加和<a时,你将一直抽牌,当累加和>=a且< ...
Cannot apply DjangoModelPermissionsOrAnonReadOnly on a view that does not set `.queryset` or have a `.get_queryset()` method.
这个问题是在使用 django REST 做自定义认证的时候出现的解决方法是在settings.py 中注释掉这个 REST_FRAMEWORK={ 'DEFAULT_PERMISSION_CLA ...
centOS 7 添加删除用户和用户组
1.添加新用户由于日常使用时root用户权限过大,所以添加一个用户供日常使用,或者供他人使用. 1 新增用户 adduser [用户名] [root@centos ~]# adduser dex 2 ...
在 Linux 上给用户赋予指定目录的读写权限
在 Linux 上指定目录的读写权限赋予用户,有两种方法可以实现这个目标:第一种是使用 ACL (访问控制列表),第二种是创建用户组来管理文件权限,下面会一一介绍.为了完成这个教程,我们将使用以下设置 ...
解决log4j:WARN No appenders could be found for logger (org.apache.ibatis.logging.LogFactory). log4j:WARN Please initialize the log4j system properly.警告
1. 问题分析使用log4j时不起作用,因为找不到配置文件log4j.properties,存在的问题可能是没有配置log4j.properties文件,也可能是配置文件log4j.properti ...
在 Istio 服务网格内连接外部 MySQL 数据库
为了方便理解,以 Istio 官方提供的 Bookinfo 应用示例为例,利用 ratings 服务外部 MySQL 数据库. Bookinfo应用的架构图如下: 其中,包含四个单独的微服务: pro ...
easyexce报错BeanMap$Generator
class net.sf.cglib.core.DebuggingClassWriter overrides final method visit 这两个报错都可以在一起解决,因为这是由于Jar包冲突 ...
PHP站群询盘订单提交过滤系统,2018年作品
//作者主页: https://www.bz80.vip header("Content-type: text/html; charset=utf-8"); //UTF8编码,避免 ...
HCL实验：4.同一vlan位于不同交换机上的通信
拓扑图 SW1配置 SW2配置 SW3配置 VLAN 1 PC1 PING PC5 VLAN 2 PC 2 PING PC 6 VLAN 3 PC4 PING PC8 怀疑是模拟器的问题---- 不知 ...