论文解读(IW-Fit)《Better Fine-Tuning via Instance Weighting for Text Classification》
Note:[ wechat:Y466551 | 可加勿骚扰,付费咨询 ]
论文信息
论文标题:Better Fine-Tuning via Instance Weighting for Text Classification
论文作者:
论文来源:2021 ACL
论文地址:download
论文代码:download
视屏讲解:click
1 介绍
出发点:域适应一类方法是对预先训练好的模型参数进行微调,以往的微调工作主要集中在预训练阶段,研究如何预训练一组最能帮助目标任务的参数;
方法简介:本文提出了一种基于实例加权的微调(IW-Fit)方法,该方法修正了微调阶段,以提高目标域的最终性能。IW-Fit在每个微调阶段动态调整实例权重,以实现两个目标: 1)有效地识别和学习目标域的具体知识;2)很好地保持源域和目标域之间的共享知识。在IW-Fit中使用的设计的实例加权度量是与模型无关的,这对于一般的基于DNN的分类器很容易实现。实验结果表明,IW-Fit可以持续提高目标域的分类精度。
贡献:
- 提出了基于实例加权的微调(IWFit),这是一种应用于给定一组预先训练好的参数的微调阶段的方法;
- 设计了两个模型不可知的指标来计算IW-Fit中使用的权重及其混合变量的权重;
- 进行了大量的实验来验证IW-Fit可以在几个基线上持续地提高目标域的分类精度;
2 方法
IW-Fit 中设计的加权度量应该实现两个目标:
- 有效地识别和学习目标领域的特定知识;
- 很好地保持源域和目标域之间的共享知识;
分类损失:
$f\left(\mathbf{y}, g_{\boldsymbol{\theta}}(\mathbf{x})\right)=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) \quad\quad(1)$
在早期的微调时期,参数接近于从尚未适应目标域的预训练分类器中获得的参数。一个实例有着较大的预测损失意味着预先训练好的分类器不能很好地拟合它,并且它可能包含更多的目标知识。因此,如果我们为这些实例分配了较大的权重,那么该模型将更加重视学习目标领域上的特定知识。这促使我们使用预测损失作为我们的第一个指标。
经过多次微调后,分类器可能会捕获更多的目标特定知识,而一些目标实例往往有很小的预测损失。为了使算法能够一致地区分这些实例,提出了另一个度量标准——历史预测损失的方差。对于具有特定目标知识的实例,它通常从很大的预测损失开始。如果它现在是一个很小的梯度,仍然可以通过计算其沿着微调时期的历史预测损失的方差来识别它。
另一方面,对于类似于源域的实例,它通常从早期时期的一个很小的预测损失开始。如果这样的实例在后期的微调时期受到巨大的损失,那么我们的微调分类器很可能会被具有目标特定知识的实例过度拟合。在这种情况下,这些实例会产生较大的预测损失以及较大的预测损失方差。给它们分配大的权重可以平衡我们的模型来实现第二个目标。
预测损失
$\text{Eq.1}$ 中的预测损失可作为分配实例权重的第一个度量值:
$w=\frac{1}{\tau}\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})+\epsilon\right) \quad\quad(2)$
其中,$\epsilon$ 是一个平滑常数,用于防止小损失的实例的权重为零,$\tau$ 是一个归一化常数,使小批量的权重的平均值等于 $1$ ;
历史预测损失方差
在 epoch 等于 $t$ 阶段,假设 $h^{t-1}= \left[f^{1}, \ldots, f^{t-1}\right]$ 是包含预测损失 $f=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) $ 的历史项的向量;
第二个度量可以根据预测损失的方差来计算:
$w=\frac{1}{\tau}\left(s t d\left(h^{t-1}\right)+\epsilon\right) \quad\quad(3)$
其中,$\operatorname{std}\left(h^{t-1}\right)$ 是估计的标准推导加上它在 $h^{t-1}$ 中的置信区间:
$\operatorname{std}\left(h^{t-1}\right)=\sqrt{\varsigma\left(h^{t-1}\right)+\frac{\varsigma^{2}\left(h^{t-1}\right)}{\left|h^{t-1}\right|-1}} \quad\quad(4)$
其中,$\varsigma^{2}\left(h^{t-1}\right)$ 为预测损失的方差,$\left|h^{t-1}\right|$ 为存储的预测损失数;
加权度量的混合变量
如上所述,预测损失在早期微调时期更有效,历史预测损失的方差应在一些后期使用。
因此,进一步提出了两个混合变体来结合这两个加权指标:
硬混合
前 $\eta$ 个 epoch 采用预测损失,然后切换到使用预测损失的方差:
$w=\frac{1}{\tau}\left[\mathbf{I}_{t \leq \eta} \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+\mathbf{I}_{t>\eta} \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(5)$
其中,当 $A$ 为真时,指标函数 $\mathbf{I}_{A}$ 等于 $1$,否则为 $0$;
软混合
在硬混合中,超参数 $\eta$ 需要仔细调整,并且这两个指标在每个微调时期都是互斥的。为了探索这两个指标的一个潜在的更灵活的组合,建议使用一种软混合变体作为:
$w=\frac{1}{\tau}\left[\beta \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+(1-\beta) \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(6)$
其中,$\beta$ 是一个在微调时期从 $1$ 线性下降到 $0$ 的平衡比。实验结果表明,在所有比较的微调方法中,采用软混合加权度量的信息量拟合方法通常表现最好。
3 实验
略
论文解读(IW-Fit)《Better Fine-Tuning via Instance Weighting for Text Classification》的更多相关文章
- 论文解读( FGSM)《Adversarial training methods for semi-supervised text classification》
论文信息 论文标题:Adversarial training methods for semi-supervised text classification论文作者:Taekyung Kim论文来源: ...
- Object Detection · RCNN论文解读
转载请注明作者:梦里茶 Object Detection,顾名思义就是从图像中检测出目标对象,具体而言是找到对象的位置,常见的数据集是PASCAL VOC系列.2010年-2012年,Object D ...
- 面向个性化需求的在线云数据库混合调优系统 | SIGMOD 2022入选论文解读
SIGMOD 数据管理国际会议是数据库领域具有最高学术地位的国际性会议,位列数据库方向顶级会议之首.近日,腾讯云数据库团队的最新研究成果入选 SIGMOD 2022 Research Full Pap ...
- [Pytorch框架] 4.1 Fine tuning 模型微调
文章目录 4.1 Fine tuning 模型微调 4.1.1 什么是微调 为什么要微调 迁移学习 Transfer Learning 二者关系 4.1.2 如何微调 4.1.3 注意事项 4.1.3 ...
- (原)caffe中fine tuning及使用snapshot时的sh命令
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/5946041.html 参考网址: http://caffe.berkeleyvision.org/tu ...
- itemKNN发展史----推荐系统的三篇重要的论文解读
itemKNN发展史----推荐系统的三篇重要的论文解读 本文用到的符号标识 1.Item-based CF 基本过程: 计算相似度矩阵 Cosine相似度 皮尔逊相似系数 参数聚合进行推荐 根据用户 ...
- CVPR2019 | Mask Scoring R-CNN 论文解读
Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读 作者 | 文永亮 研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...
- AAAI2019 | 基于区域分解集成的目标检测 论文解读
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学 ...
- Fine Tuning
(转载自:WikiPedia) Fine tuning is a process to take a network model that has already been trained for a ...
- Gaussian field consensus论文解读及MATLAB实现
Gaussian field consensus论文解读及MATLAB实现 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 一.Introduction ...
随机推荐
- extra别名,即给列取别名
extra别名,即给列取别名 Student.objects.all().extra(select={"name":"nickname"}) nickname为 ...
- 初等数论——素数,逆元,EXGCD有关
初等数论 素数定义 设整数 \(p\ne 0,\pm 1\) .如果 \(p\) 除了平凡约数以外没有其他约数,那么称 \(p\) 为素数(不可约数). 若整数 \(a\ne 0,\pm 1\) 且 ...
- 【GiraKoo】Git工具使用指南
Git工具使用指南 Git是一个分布式版本控制工具,可以用于管理代码.本文介绍了如何使用git工具. 1. SVN和Git的区别 1.1 SVN SVN是集中式版本控制工具,所有的代码都存储在一个中央 ...
- 代码随想录算法训练营Day30 回溯算法| 332.重新安排行程 51. N皇后 37. 解数独 总结
代码随想录算法训练营 332.重新安排行程 题目链接:332.重新安排行程 给定一个机票的字符串二维数组 [from, to],子数组中的两个成员分别表示飞机出发和降落的机场地点,对该行程进行重新规划 ...
- 基于渗透的python
Python for Pentesters 还记得开始学习编程的C,虽然淡忘,但思想仍在. 子域名枚举 request库 import pyfiglet import requests import ...
- 【Linux】shell编程(一) 变量
[Linux]shell编程(一) 变量 目录 [Linux]shell编程(一) 变量 什么是shell编程 如何运行shell脚本 第一行 #!/bin/bash 第一行叫什么? WHAT IS ...
- C# - XMLHelper :一个操作XML的简单类库
下午写了一个操作XML文件的类库,后来不用了,水篇文章存个档 整体功能 XMLHelper.cs主要提供以下功能: 加载XML文件:从文件路径或字符串中加载XML文档,并返回XmlDocument对象 ...
- 【NestJS系列】从Nest CLI开始入门
初识Nest JS Nest 是一个渐进的 Node.js 框架,它可以在 TypeScript 和 JavaScript (ES6.ES7.ES8)之上构建高效.可伸缩的企业级服务器端应用程序. N ...
- 利用java来实现计算器的加减乘除
package bag; import java.util.Scanner; public class Demo06 { public static void main(String[] args) ...
- go build怎么使用
go build 是 Go 语言编译器的一个命令,用于将 Go 源代码文件编译成可执行的二进制文件.它是 Go 语言开发过程中常用的一个命令.以下是 go build 的基本使用方法: go buil ...