论文解读(IW-Fit)《Better Fine-Tuning via Instance Weighting for Text Classification》
Note:[ wechat:Y466551 | 可加勿骚扰,付费咨询 ]
论文信息
论文标题:Better Fine-Tuning via Instance Weighting for Text Classification
论文作者:
论文来源:2021 ACL
论文地址:download
论文代码:download
视屏讲解:click
1 介绍
出发点:域适应一类方法是对预先训练好的模型参数进行微调,以往的微调工作主要集中在预训练阶段,研究如何预训练一组最能帮助目标任务的参数;
方法简介:本文提出了一种基于实例加权的微调(IW-Fit)方法,该方法修正了微调阶段,以提高目标域的最终性能。IW-Fit在每个微调阶段动态调整实例权重,以实现两个目标: 1)有效地识别和学习目标域的具体知识;2)很好地保持源域和目标域之间的共享知识。在IW-Fit中使用的设计的实例加权度量是与模型无关的,这对于一般的基于DNN的分类器很容易实现。实验结果表明,IW-Fit可以持续提高目标域的分类精度。
贡献:
- 提出了基于实例加权的微调(IWFit),这是一种应用于给定一组预先训练好的参数的微调阶段的方法;
- 设计了两个模型不可知的指标来计算IW-Fit中使用的权重及其混合变量的权重;
- 进行了大量的实验来验证IW-Fit可以在几个基线上持续地提高目标域的分类精度;
2 方法
IW-Fit 中设计的加权度量应该实现两个目标:
- 有效地识别和学习目标领域的特定知识;
- 很好地保持源域和目标域之间的共享知识;
分类损失:
$f\left(\mathbf{y}, g_{\boldsymbol{\theta}}(\mathbf{x})\right)=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) \quad\quad(1)$
在早期的微调时期,参数接近于从尚未适应目标域的预训练分类器中获得的参数。一个实例有着较大的预测损失意味着预先训练好的分类器不能很好地拟合它,并且它可能包含更多的目标知识。因此,如果我们为这些实例分配了较大的权重,那么该模型将更加重视学习目标领域上的特定知识。这促使我们使用预测损失作为我们的第一个指标。
经过多次微调后,分类器可能会捕获更多的目标特定知识,而一些目标实例往往有很小的预测损失。为了使算法能够一致地区分这些实例,提出了另一个度量标准——历史预测损失的方差。对于具有特定目标知识的实例,它通常从很大的预测损失开始。如果它现在是一个很小的梯度,仍然可以通过计算其沿着微调时期的历史预测损失的方差来识别它。
另一方面,对于类似于源域的实例,它通常从早期时期的一个很小的预测损失开始。如果这样的实例在后期的微调时期受到巨大的损失,那么我们的微调分类器很可能会被具有目标特定知识的实例过度拟合。在这种情况下,这些实例会产生较大的预测损失以及较大的预测损失方差。给它们分配大的权重可以平衡我们的模型来实现第二个目标。
预测损失
$\text{Eq.1}$ 中的预测损失可作为分配实例权重的第一个度量值:
$w=\frac{1}{\tau}\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})+\epsilon\right) \quad\quad(2)$
其中,$\epsilon$ 是一个平滑常数,用于防止小损失的实例的权重为零,$\tau$ 是一个归一化常数,使小批量的权重的平均值等于 $1$ ;
历史预测损失方差
在 epoch 等于 $t$ 阶段,假设 $h^{t-1}= \left[f^{1}, \ldots, f^{t-1}\right]$ 是包含预测损失 $f=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) $ 的历史项的向量;
第二个度量可以根据预测损失的方差来计算:
$w=\frac{1}{\tau}\left(s t d\left(h^{t-1}\right)+\epsilon\right) \quad\quad(3)$
其中,$\operatorname{std}\left(h^{t-1}\right)$ 是估计的标准推导加上它在 $h^{t-1}$ 中的置信区间:
$\operatorname{std}\left(h^{t-1}\right)=\sqrt{\varsigma\left(h^{t-1}\right)+\frac{\varsigma^{2}\left(h^{t-1}\right)}{\left|h^{t-1}\right|-1}} \quad\quad(4)$
其中,$\varsigma^{2}\left(h^{t-1}\right)$ 为预测损失的方差,$\left|h^{t-1}\right|$ 为存储的预测损失数;
加权度量的混合变量
如上所述,预测损失在早期微调时期更有效,历史预测损失的方差应在一些后期使用。
因此,进一步提出了两个混合变体来结合这两个加权指标:
硬混合
前 $\eta$ 个 epoch 采用预测损失,然后切换到使用预测损失的方差:
$w=\frac{1}{\tau}\left[\mathbf{I}_{t \leq \eta} \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+\mathbf{I}_{t>\eta} \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(5)$
其中,当 $A$ 为真时,指标函数 $\mathbf{I}_{A}$ 等于 $1$,否则为 $0$;
软混合
在硬混合中,超参数 $\eta$ 需要仔细调整,并且这两个指标在每个微调时期都是互斥的。为了探索这两个指标的一个潜在的更灵活的组合,建议使用一种软混合变体作为:
$w=\frac{1}{\tau}\left[\beta \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+(1-\beta) \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(6)$
其中,$\beta$ 是一个在微调时期从 $1$ 线性下降到 $0$ 的平衡比。实验结果表明,在所有比较的微调方法中,采用软混合加权度量的信息量拟合方法通常表现最好。
3 实验
略
论文解读(IW-Fit)《Better Fine-Tuning via Instance Weighting for Text Classification》的更多相关文章
- 论文解读( FGSM)《Adversarial training methods for semi-supervised text classification》
论文信息 论文标题:Adversarial training methods for semi-supervised text classification论文作者:Taekyung Kim论文来源: ...
- Object Detection · RCNN论文解读
转载请注明作者:梦里茶 Object Detection,顾名思义就是从图像中检测出目标对象,具体而言是找到对象的位置,常见的数据集是PASCAL VOC系列.2010年-2012年,Object D ...
- 面向个性化需求的在线云数据库混合调优系统 | SIGMOD 2022入选论文解读
SIGMOD 数据管理国际会议是数据库领域具有最高学术地位的国际性会议,位列数据库方向顶级会议之首.近日,腾讯云数据库团队的最新研究成果入选 SIGMOD 2022 Research Full Pap ...
- [Pytorch框架] 4.1 Fine tuning 模型微调
文章目录 4.1 Fine tuning 模型微调 4.1.1 什么是微调 为什么要微调 迁移学习 Transfer Learning 二者关系 4.1.2 如何微调 4.1.3 注意事项 4.1.3 ...
- (原)caffe中fine tuning及使用snapshot时的sh命令
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/5946041.html 参考网址: http://caffe.berkeleyvision.org/tu ...
- itemKNN发展史----推荐系统的三篇重要的论文解读
itemKNN发展史----推荐系统的三篇重要的论文解读 本文用到的符号标识 1.Item-based CF 基本过程: 计算相似度矩阵 Cosine相似度 皮尔逊相似系数 参数聚合进行推荐 根据用户 ...
- CVPR2019 | Mask Scoring R-CNN 论文解读
Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读 作者 | 文永亮 研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...
- AAAI2019 | 基于区域分解集成的目标检测 论文解读
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学 ...
- Fine Tuning
(转载自:WikiPedia) Fine tuning is a process to take a network model that has already been trained for a ...
- Gaussian field consensus论文解读及MATLAB实现
Gaussian field consensus论文解读及MATLAB实现 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 一.Introduction ...
随机推荐
- vue全家桶进阶之路37:Vue3 路由守卫
在 Vue.js 3.x 中,我们可以使用路由守卫来拦截路由的跳转,从而实现一些功能,例如:登录验证.页面权限控制等. Vue.js 3.x 中的路由守卫和 Vue.js 2.x 中的基本相同,都包含 ...
- JavaWeb概念
1 基本概念 1.1 前言 web开发: web,网页的意思,类如:www.baidu.com 静态web: html,css 提供给所有人看到的数据始终不会改变! 动态web: 几乎所有的网站:类如 ...
- 域名配置动态代理后,为什么每次 ping 还是相同的 ip?
当你配置了域名的动态代理后,ping 命令所显示的 IP 地址不会随着代理服务器的变化而变化. 这是因为 ping 命令使用了 DNS 缓存,它会将域名解析结果缓存到本地,直到缓存过期或者手动清除缓存 ...
- HDU 6981.Rise in Price (Beam Search 贪心)
by 0htoAi,写于2021.8.14 Problem Description There are n×n cells on a grid, the top-left cell is at (1, ...
- CentOS7 本地光盘镜像rpm包
CentOS7 本地光盘镜像rpm包 一.前言 rpm包的下载方式 通过本地光盘镜像下载rpm,centos7.iso镜像文件,内置了绝大多数软件的rpm包(本文章即演示如何配置本地rpm) 在线下载 ...
- C++内敛函数,构造函数,析构函数,浅拷贝
inline //inline函数可以有声明和实现,但是必须在同一文件//inline函数不能分成头文件和实现文件 inline int add(int x, int y){ //一般不要放循环语句 ...
- Java 网络编程 —— RMI 框架
概述 RMI 是 Java 提供的一个完善的简单易用的远程方法调用框架,采用客户/服务器通信方式,在服务器上部署了提供各种服务的远程对象,客户端请求访问服务器上远程对象的方法,它要求客户端与服务器端都 ...
- 洛谷 P8026 [ONTAK2015] Bajtocja
简要题意 有 \(d\) 张初始为空的无向图,每张中都有 \(n\) 个点,标号从 \(1\) 到 \(n\),\(m\) 次操作,每次往一张图加一条边,并询问有多少有序数对 \((a, b)\) 使 ...
- 前端Vue自定义简单好用商品分类列表组件 侧边栏商品分类组件
前端Vue自定义简单好用商品分类列表组件 侧边栏商品分类组件 , 下载完整代码请访问uni-app插件市场地址:https://ext.dcloud.net.cn/plugin?id=13148 效果 ...
- 快上车,搭乘HUAWEI HiCar驶向未来
HUAWEI HiCar(以下简称HiCar)是华为提供的人-车-家全场景智慧互联解决方案,连接手机与车辆,充分发挥各自的优势属性,将手机的应用/服务生态延伸进车辆,实现以手机为核心的全场景体验.消费 ...