论文解读(IW-Fit)《Better Fine-Tuning via Instance Weighting for Text Classification》
Note:[ wechat:Y466551 | 可加勿骚扰,付费咨询 ]
论文信息
论文标题:Better Fine-Tuning via Instance Weighting for Text Classification
论文作者:
论文来源:2021 ACL
论文地址:download
论文代码:download
视屏讲解:click
1 介绍
出发点:域适应一类方法是对预先训练好的模型参数进行微调,以往的微调工作主要集中在预训练阶段,研究如何预训练一组最能帮助目标任务的参数;
方法简介:本文提出了一种基于实例加权的微调(IW-Fit)方法,该方法修正了微调阶段,以提高目标域的最终性能。IW-Fit在每个微调阶段动态调整实例权重,以实现两个目标: 1)有效地识别和学习目标域的具体知识;2)很好地保持源域和目标域之间的共享知识。在IW-Fit中使用的设计的实例加权度量是与模型无关的,这对于一般的基于DNN的分类器很容易实现。实验结果表明,IW-Fit可以持续提高目标域的分类精度。
贡献:
- 提出了基于实例加权的微调(IWFit),这是一种应用于给定一组预先训练好的参数的微调阶段的方法;
- 设计了两个模型不可知的指标来计算IW-Fit中使用的权重及其混合变量的权重;
- 进行了大量的实验来验证IW-Fit可以在几个基线上持续地提高目标域的分类精度;
2 方法
IW-Fit 中设计的加权度量应该实现两个目标:
- 有效地识别和学习目标领域的特定知识;
- 很好地保持源域和目标域之间的共享知识;
分类损失:
$f\left(\mathbf{y}, g_{\boldsymbol{\theta}}(\mathbf{x})\right)=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) \quad\quad(1)$
在早期的微调时期,参数接近于从尚未适应目标域的预训练分类器中获得的参数。一个实例有着较大的预测损失意味着预先训练好的分类器不能很好地拟合它,并且它可能包含更多的目标知识。因此,如果我们为这些实例分配了较大的权重,那么该模型将更加重视学习目标领域上的特定知识。这促使我们使用预测损失作为我们的第一个指标。
经过多次微调后,分类器可能会捕获更多的目标特定知识,而一些目标实例往往有很小的预测损失。为了使算法能够一致地区分这些实例,提出了另一个度量标准——历史预测损失的方差。对于具有特定目标知识的实例,它通常从很大的预测损失开始。如果它现在是一个很小的梯度,仍然可以通过计算其沿着微调时期的历史预测损失的方差来识别它。
另一方面,对于类似于源域的实例,它通常从早期时期的一个很小的预测损失开始。如果这样的实例在后期的微调时期受到巨大的损失,那么我们的微调分类器很可能会被具有目标特定知识的实例过度拟合。在这种情况下,这些实例会产生较大的预测损失以及较大的预测损失方差。给它们分配大的权重可以平衡我们的模型来实现第二个目标。
预测损失
$\text{Eq.1}$ 中的预测损失可作为分配实例权重的第一个度量值:
$w=\frac{1}{\tau}\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})+\epsilon\right) \quad\quad(2)$
其中,$\epsilon$ 是一个平滑常数,用于防止小损失的实例的权重为零,$\tau$ 是一个归一化常数,使小批量的权重的平均值等于 $1$ ;
历史预测损失方差
在 epoch 等于 $t$ 阶段,假设 $h^{t-1}= \left[f^{1}, \ldots, f^{t-1}\right]$ 是包含预测损失 $f=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) $ 的历史项的向量;
第二个度量可以根据预测损失的方差来计算:
$w=\frac{1}{\tau}\left(s t d\left(h^{t-1}\right)+\epsilon\right) \quad\quad(3)$
其中,$\operatorname{std}\left(h^{t-1}\right)$ 是估计的标准推导加上它在 $h^{t-1}$ 中的置信区间:
$\operatorname{std}\left(h^{t-1}\right)=\sqrt{\varsigma\left(h^{t-1}\right)+\frac{\varsigma^{2}\left(h^{t-1}\right)}{\left|h^{t-1}\right|-1}} \quad\quad(4)$
其中,$\varsigma^{2}\left(h^{t-1}\right)$ 为预测损失的方差,$\left|h^{t-1}\right|$ 为存储的预测损失数;
加权度量的混合变量
如上所述,预测损失在早期微调时期更有效,历史预测损失的方差应在一些后期使用。
因此,进一步提出了两个混合变体来结合这两个加权指标:
硬混合
前 $\eta$ 个 epoch 采用预测损失,然后切换到使用预测损失的方差:
$w=\frac{1}{\tau}\left[\mathbf{I}_{t \leq \eta} \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+\mathbf{I}_{t>\eta} \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(5)$
其中,当 $A$ 为真时,指标函数 $\mathbf{I}_{A}$ 等于 $1$,否则为 $0$;
软混合
在硬混合中,超参数 $\eta$ 需要仔细调整,并且这两个指标在每个微调时期都是互斥的。为了探索这两个指标的一个潜在的更灵活的组合,建议使用一种软混合变体作为:
$w=\frac{1}{\tau}\left[\beta \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+(1-\beta) \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(6)$
其中,$\beta$ 是一个在微调时期从 $1$ 线性下降到 $0$ 的平衡比。实验结果表明,在所有比较的微调方法中,采用软混合加权度量的信息量拟合方法通常表现最好。
3 实验
略
论文解读(IW-Fit)《Better Fine-Tuning via Instance Weighting for Text Classification》的更多相关文章
- 论文解读( FGSM)《Adversarial training methods for semi-supervised text classification》
论文信息 论文标题:Adversarial training methods for semi-supervised text classification论文作者:Taekyung Kim论文来源: ...
- Object Detection · RCNN论文解读
转载请注明作者:梦里茶 Object Detection,顾名思义就是从图像中检测出目标对象,具体而言是找到对象的位置,常见的数据集是PASCAL VOC系列.2010年-2012年,Object D ...
- 面向个性化需求的在线云数据库混合调优系统 | SIGMOD 2022入选论文解读
SIGMOD 数据管理国际会议是数据库领域具有最高学术地位的国际性会议,位列数据库方向顶级会议之首.近日,腾讯云数据库团队的最新研究成果入选 SIGMOD 2022 Research Full Pap ...
- [Pytorch框架] 4.1 Fine tuning 模型微调
文章目录 4.1 Fine tuning 模型微调 4.1.1 什么是微调 为什么要微调 迁移学习 Transfer Learning 二者关系 4.1.2 如何微调 4.1.3 注意事项 4.1.3 ...
- (原)caffe中fine tuning及使用snapshot时的sh命令
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/5946041.html 参考网址: http://caffe.berkeleyvision.org/tu ...
- itemKNN发展史----推荐系统的三篇重要的论文解读
itemKNN发展史----推荐系统的三篇重要的论文解读 本文用到的符号标识 1.Item-based CF 基本过程: 计算相似度矩阵 Cosine相似度 皮尔逊相似系数 参数聚合进行推荐 根据用户 ...
- CVPR2019 | Mask Scoring R-CNN 论文解读
Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读 作者 | 文永亮 研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...
- AAAI2019 | 基于区域分解集成的目标检测 论文解读
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学 ...
- Fine Tuning
(转载自:WikiPedia) Fine tuning is a process to take a network model that has already been trained for a ...
- Gaussian field consensus论文解读及MATLAB实现
Gaussian field consensus论文解读及MATLAB实现 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 一.Introduction ...
随机推荐
- vue全家桶进阶之路16:自定义过滤器及开发插件
过渡 过渡(transition)是Vue提供的一种在元素在插入.更新或移除时,自动添加动画效果的方式.Vue提供了多种过渡效果,其中包括基于CSS动画的过渡,以及JavaScript过渡. 过渡可以 ...
- prefetch_related() 一对多、多对多查询优化,反向查询
prefetch_related() 一对多.多对多查询优化,反向查询 Student.objects.filter(age__lt=30).prefetch_related('course') # ...
- CogSci 2017-Learning to reinforcement learn
Key 元学习系统(监督+从属)扩展于RL设置 LSTM用强化学习算法进行训练,可以使agent获得一定的学习适应能力 解决的主要问题 DRL受限于特定的领域 DRL训练需要大量的数据 作者参考了Ho ...
- Doris(五) -- 数据的导入导出
数据导入 使用 Insert 方式同步数据 用户可以通过 MySQL 协议,使用 INSERT 语句进行数据导入 INSERT 语句的使用方式和 MySQL 等数据库中 INSERT 语句的使用方式类 ...
- pip 20.3 新版本发布!即将抛弃 Python 2.x
据 Python 软件基金会消息,Python Packaging Authority 和 pip 团队于北美时间11月30日宣布发布 pip 20.3版本,开发者可以通过运行 python -m p ...
- 前后端分离架构下使用 Sa-Token 完成登录认证
一.架构分析 目前绝大多数系统都已经采用 "前后端分离" 架构来设计了,传统的Session模式鉴权也不再适合这种架构(或者需要额外写很多的代码来专门适配). Sa-Token 是 ...
- OSPF路由控制
实验拓扑 实验需求 公司A使用OSPF路由协议实现公司设备全网互通,后来公司A扩张兼并了公司B,要求将公司B采用的IS-IS路由协议与公司A的OSPF协议互相引入,使得相应部门可以实现互通. Rout ...
- 逍遥自在学C语言 | 枚举的那些事儿
前言 在C语言中,枚举是一种方便组织和表示一组相关常量的工具.枚举类型有助于提高代码的可读性和可维护性.本文将介绍C语言枚举的基本概念.语法和用法,以及一些高级技巧. 一.人物简介 第一位闪亮登场,有 ...
- How to build a OR condition in Elasticsearch Query DSL
How to build a OR condition in Elasticsearch Query DSL 参考 Query Example Query DSL 表达方
- Go应用性能优化的8个最佳实践,快速提升资源利用效率!
作者|Ifedayo Adesiyan 翻译|Seal软件 链接|https://earthly.dev/blog/optimize-golang-for-kubernetes/ 优化服务器负载对于确 ...