论文解读(IW-Fit)《Better Fine-Tuning via Instance Weighting for Text Classification》
Note:[ wechat:Y466551 | 可加勿骚扰,付费咨询 ]
论文信息
论文标题:Better Fine-Tuning via Instance Weighting for Text Classification
论文作者:
论文来源:2021 ACL
论文地址:download
论文代码:download
视屏讲解:click
1 介绍
出发点:域适应一类方法是对预先训练好的模型参数进行微调,以往的微调工作主要集中在预训练阶段,研究如何预训练一组最能帮助目标任务的参数;
方法简介:本文提出了一种基于实例加权的微调(IW-Fit)方法,该方法修正了微调阶段,以提高目标域的最终性能。IW-Fit在每个微调阶段动态调整实例权重,以实现两个目标: 1)有效地识别和学习目标域的具体知识;2)很好地保持源域和目标域之间的共享知识。在IW-Fit中使用的设计的实例加权度量是与模型无关的,这对于一般的基于DNN的分类器很容易实现。实验结果表明,IW-Fit可以持续提高目标域的分类精度。
贡献:
- 提出了基于实例加权的微调(IWFit),这是一种应用于给定一组预先训练好的参数的微调阶段的方法;
- 设计了两个模型不可知的指标来计算IW-Fit中使用的权重及其混合变量的权重;
- 进行了大量的实验来验证IW-Fit可以在几个基线上持续地提高目标域的分类精度;
2 方法
IW-Fit 中设计的加权度量应该实现两个目标:
- 有效地识别和学习目标领域的特定知识;
- 很好地保持源域和目标域之间的共享知识;
分类损失:
$f\left(\mathbf{y}, g_{\boldsymbol{\theta}}(\mathbf{x})\right)=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) \quad\quad(1)$
在早期的微调时期,参数接近于从尚未适应目标域的预训练分类器中获得的参数。一个实例有着较大的预测损失意味着预先训练好的分类器不能很好地拟合它,并且它可能包含更多的目标知识。因此,如果我们为这些实例分配了较大的权重,那么该模型将更加重视学习目标领域上的特定知识。这促使我们使用预测损失作为我们的第一个指标。
经过多次微调后,分类器可能会捕获更多的目标特定知识,而一些目标实例往往有很小的预测损失。为了使算法能够一致地区分这些实例,提出了另一个度量标准——历史预测损失的方差。对于具有特定目标知识的实例,它通常从很大的预测损失开始。如果它现在是一个很小的梯度,仍然可以通过计算其沿着微调时期的历史预测损失的方差来识别它。
另一方面,对于类似于源域的实例,它通常从早期时期的一个很小的预测损失开始。如果这样的实例在后期的微调时期受到巨大的损失,那么我们的微调分类器很可能会被具有目标特定知识的实例过度拟合。在这种情况下,这些实例会产生较大的预测损失以及较大的预测损失方差。给它们分配大的权重可以平衡我们的模型来实现第二个目标。
预测损失
$\text{Eq.1}$ 中的预测损失可作为分配实例权重的第一个度量值:
$w=\frac{1}{\tau}\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})+\epsilon\right) \quad\quad(2)$
其中,$\epsilon$ 是一个平滑常数,用于防止小损失的实例的权重为零,$\tau$ 是一个归一化常数,使小批量的权重的平均值等于 $1$ ;
历史预测损失方差
在 epoch 等于 $t$ 阶段,假设 $h^{t-1}= \left[f^{1}, \ldots, f^{t-1}\right]$ 是包含预测损失 $f=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) $ 的历史项的向量;
第二个度量可以根据预测损失的方差来计算:
$w=\frac{1}{\tau}\left(s t d\left(h^{t-1}\right)+\epsilon\right) \quad\quad(3)$
其中,$\operatorname{std}\left(h^{t-1}\right)$ 是估计的标准推导加上它在 $h^{t-1}$ 中的置信区间:
$\operatorname{std}\left(h^{t-1}\right)=\sqrt{\varsigma\left(h^{t-1}\right)+\frac{\varsigma^{2}\left(h^{t-1}\right)}{\left|h^{t-1}\right|-1}} \quad\quad(4)$
其中,$\varsigma^{2}\left(h^{t-1}\right)$ 为预测损失的方差,$\left|h^{t-1}\right|$ 为存储的预测损失数;
加权度量的混合变量
如上所述,预测损失在早期微调时期更有效,历史预测损失的方差应在一些后期使用。
因此,进一步提出了两个混合变体来结合这两个加权指标:
硬混合
前 $\eta$ 个 epoch 采用预测损失,然后切换到使用预测损失的方差:
$w=\frac{1}{\tau}\left[\mathbf{I}_{t \leq \eta} \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+\mathbf{I}_{t>\eta} \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(5)$
其中,当 $A$ 为真时,指标函数 $\mathbf{I}_{A}$ 等于 $1$,否则为 $0$;
软混合
在硬混合中,超参数 $\eta$ 需要仔细调整,并且这两个指标在每个微调时期都是互斥的。为了探索这两个指标的一个潜在的更灵活的组合,建议使用一种软混合变体作为:
$w=\frac{1}{\tau}\left[\beta \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+(1-\beta) \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(6)$
其中,$\beta$ 是一个在微调时期从 $1$ 线性下降到 $0$ 的平衡比。实验结果表明,在所有比较的微调方法中,采用软混合加权度量的信息量拟合方法通常表现最好。
3 实验
略
论文解读(IW-Fit)《Better Fine-Tuning via Instance Weighting for Text Classification》的更多相关文章
- 论文解读( FGSM)《Adversarial training methods for semi-supervised text classification》
论文信息 论文标题:Adversarial training methods for semi-supervised text classification论文作者:Taekyung Kim论文来源: ...
- Object Detection · RCNN论文解读
转载请注明作者:梦里茶 Object Detection,顾名思义就是从图像中检测出目标对象,具体而言是找到对象的位置,常见的数据集是PASCAL VOC系列.2010年-2012年,Object D ...
- 面向个性化需求的在线云数据库混合调优系统 | SIGMOD 2022入选论文解读
SIGMOD 数据管理国际会议是数据库领域具有最高学术地位的国际性会议,位列数据库方向顶级会议之首.近日,腾讯云数据库团队的最新研究成果入选 SIGMOD 2022 Research Full Pap ...
- [Pytorch框架] 4.1 Fine tuning 模型微调
文章目录 4.1 Fine tuning 模型微调 4.1.1 什么是微调 为什么要微调 迁移学习 Transfer Learning 二者关系 4.1.2 如何微调 4.1.3 注意事项 4.1.3 ...
- (原)caffe中fine tuning及使用snapshot时的sh命令
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/5946041.html 参考网址: http://caffe.berkeleyvision.org/tu ...
- itemKNN发展史----推荐系统的三篇重要的论文解读
itemKNN发展史----推荐系统的三篇重要的论文解读 本文用到的符号标识 1.Item-based CF 基本过程: 计算相似度矩阵 Cosine相似度 皮尔逊相似系数 参数聚合进行推荐 根据用户 ...
- CVPR2019 | Mask Scoring R-CNN 论文解读
Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读 作者 | 文永亮 研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...
- AAAI2019 | 基于区域分解集成的目标检测 论文解读
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学 ...
- Fine Tuning
(转载自:WikiPedia) Fine tuning is a process to take a network model that has already been trained for a ...
- Gaussian field consensus论文解读及MATLAB实现
Gaussian field consensus论文解读及MATLAB实现 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 一.Introduction ...
随机推荐
- 2022-03-05:不相交的线。 在两条独立的水平线上按给定的顺序写下 nums1 和 nums2 中的整数。 现在,可以绘制一些连接两个数字 nums1[i] 和 nums2[j] 的直线,这些直
2022-03-05:不相交的线. 在两条独立的水平线上按给定的顺序写下 nums1 和 nums2 中的整数. 现在,可以绘制一些连接两个数字 nums1[i] 和 nums2[j] 的直线,这些直 ...
- 在Centos7上安装PXE装机环境来批量安装操作系统
步骤 1:安装必要的软件包 首先,需要确保系统已安装 dhcp.tftp-server 和 httpd 等软件包.可以使用以下命令进行安装: yum install -y dhcp tftp-serv ...
- 《数据结构(C语言版)》严蔚敏代码实现———顺序表
一.前言 最近在重新学习数据结构啦,网上说这本书挺不错哒,于是我开始啃这本书咯...有一说一,严奶奶的书挺好的,就是有点大量使用指针...需要沉下心来,看一看画一画才能懂,我自己手敲了一遍书上代码,加 ...
- 2013年蓝桥杯C/C++大学B组省赛真题(马虎的算式)
题目描述: 小明是个急性子,上小学的时候经常把老师写在黑板上的题目抄错了. 有一次,老师出的题目是:36 x 495 = ? 他却给抄成了:396 x 45 = ? 但结果却很戏剧性,他的答案竟然是 ...
- 安装Visio 2013与原本的office冲突的最终解决方案
一. 下载office visio 2013 这个直接去网上下载一个安装包解压即可 或者直接云盘下载 https://pan.baidu.com/s/1jWGFoHAjegBBvyrL1rq4DQ 提 ...
- Cobalt Strike 连接启动教程(1)
第一步:把cobaltstrike4(解压后)拷贝到虚拟机Kali系统的root目录下 第二步:进入cobalstrike4文件夹中 第三步:选寻kali系统 IP地址 第四步: 启动服务端:(t ...
- 安装ODOO13
在CentOS 7服务器下安装和配置Odoo 13 录到服务器: ssh root@your_server_ip1如需检查计算机上安装的CentOS的版本,可以运行以下命令: cat /etc/red ...
- Spectre.Console-实现自己的CLI
引言 最近发现自己喜欢用的 Todo 软件总是差点意思,毕竟每个人的习惯和工作流不太一样,我就想着自己写一个小的Todo 项目,核心的功能是自动记录 Todo 执行过程中消耗的时间(尤其面向程序员), ...
- 【Leetcode】 # 20 有效的括号 Rust Solution About Rust Stack implement
给定一个只包括 '(',')','{','}','[',']' 的字符串,判断字符串是否有效.有效字符串需满足: 左括号必须用相同类型的右括号闭合. 左括号必须以正确的顺序闭合.注意空字符 ...
- GO通道:无缓冲通道与缓冲通道
转载请注明出处: 1.通道定义 在多个协程之间进行通信和管理,可以使用 Go 语言提供的通道(Channel)类型.通道是一种特殊的数据结构,可以在协程之间进行传递数据,从而实现协程之间的通信和同步. ...