Note:[ wechat:Y466551 | 可加勿骚扰,付费咨询 ]

论文信息

论文标题:Better Fine-Tuning via Instance Weighting for Text Classification
论文作者:
论文来源:2021 ACL
论文地址:download 
论文代码:download
视屏讲解:click

1 介绍

  出发点:域适应一类方法是对预先训练好的模型参数进行微调,以往的微调工作主要集中在预训练阶段,研究如何预训练一组最能帮助目标任务的参数;

  方法简介:本文提出了一种基于实例加权的微调(IW-Fit)方法,该方法修正了微调阶段,以提高目标域的最终性能。IW-Fit在每个微调阶段动态调整实例权重,以实现两个目标: 1)有效地识别和学习目标域的具体知识;2)很好地保持源域和目标域之间的共享知识。在IW-Fit中使用的设计的实例加权度量是与模型无关的,这对于一般的基于DNN的分类器很容易实现。实验结果表明,IW-Fit可以持续提高目标域的分类精度。

  贡献:

    • 提出了基于实例加权的微调(IWFit),这是一种应用于给定一组预先训练好的参数的微调阶段的方法;
    • 设计了两个模型不可知的指标来计算IW-Fit中使用的权重及其混合变量的权重;
    • 进行了大量的实验来验证IW-Fit可以在几个基线上持续地提高目标域的分类精度;

2 方法

  IW-Fit 中设计的加权度量应该实现两个目标:

    1. 有效地识别和学习目标领域的特定知识;
    2. 很好地保持源域和目标域之间的共享知识;

  分类损失:

    $f\left(\mathbf{y}, g_{\boldsymbol{\theta}}(\mathbf{x})\right)=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})   \quad\quad(1)$

  在早期的微调时期,参数接近于从尚未适应目标域的预训练分类器中获得的参数。一个实例有着较大的预测损失意味着预先训练好的分类器不能很好地拟合它,并且它可能包含更多的目标知识。因此,如果我们为这些实例分配了较大的权重,那么该模型将更加重视学习目标领域上的特定知识。这促使我们使用预测损失作为我们的第一个指标。

  经过多次微调后,分类器可能会捕获更多的目标特定知识,而一些目标实例往往有很小的预测损失。为了使算法能够一致地区分这些实例,提出了另一个度量标准——历史预测损失的方差。对于具有特定目标知识的实例,它通常从很大的预测损失开始。如果它现在是一个很小的梯度,仍然可以通过计算其沿着微调时期的历史预测损失的方差来识别它。

  另一方面,对于类似于源域的实例,它通常从早期时期的一个很小的预测损失开始。如果这样的实例在后期的微调时期受到巨大的损失,那么我们的微调分类器很可能会被具有目标特定知识的实例过度拟合。在这种情况下,这些实例会产生较大的预测损失以及较大的预测损失方差。给它们分配大的权重可以平衡我们的模型来实现第二个目标。

预测损失

  $\text{Eq.1}$ 中的预测损失可作为分配实例权重的第一个度量值:

    $w=\frac{1}{\tau}\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})+\epsilon\right)  \quad\quad(2)$

  其中,$\epsilon$ 是一个平滑常数,用于防止小损失的实例的权重为零,$\tau$ 是一个归一化常数,使小批量的权重的平均值等于 $1$ ;

历史预测损失方差

  在 epoch 等于 $t$ 阶段,假设 $h^{t-1}= \left[f^{1}, \ldots, f^{t-1}\right]$ 是包含预测损失 $f=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) $ 的历史项的向量;

  第二个度量可以根据预测损失的方差来计算:

    $w=\frac{1}{\tau}\left(s t d\left(h^{t-1}\right)+\epsilon\right)  \quad\quad(3)$

  其中,$\operatorname{std}\left(h^{t-1}\right)$ 是估计的标准推导加上它在 $h^{t-1}$ 中的置信区间:

    $\operatorname{std}\left(h^{t-1}\right)=\sqrt{\varsigma\left(h^{t-1}\right)+\frac{\varsigma^{2}\left(h^{t-1}\right)}{\left|h^{t-1}\right|-1}}  \quad\quad(4)$

  其中,$\varsigma^{2}\left(h^{t-1}\right)$ 为预测损失的方差,$\left|h^{t-1}\right|$ 为存储的预测损失数;

加权度量的混合变量

  如上所述,预测损失在早期微调时期更有效,历史预测损失的方差应在一些后期使用。

  因此,进一步提出了两个混合变体来结合这两个加权指标:

硬混合

  前 $\eta$ 个 epoch 采用预测损失,然后切换到使用预测损失的方差:

    $w=\frac{1}{\tau}\left[\mathbf{I}_{t \leq \eta} \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+\mathbf{I}_{t>\eta} \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right]  \quad\quad(5)$

  其中,当 $A$ 为真时,指标函数 $\mathbf{I}_{A}$ 等于 $1$,否则为 $0$;

软混合

  在硬混合中,超参数 $\eta$ 需要仔细调整,并且这两个指标在每个微调时期都是互斥的。为了探索这两个指标的一个潜在的更灵活的组合,建议使用一种软混合变体作为:

    $w=\frac{1}{\tau}\left[\beta \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+(1-\beta) \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right]  \quad\quad(6)$

  其中,$\beta$ 是一个在微调时期从 $1$ 线性下降到 $0$ 的平衡比。实验结果表明,在所有比较的微调方法中,采用软混合加权度量的信息量拟合方法通常表现最好。

3 实验

  略

论文解读(IW-Fit)《Better Fine-Tuning via Instance Weighting for Text Classification》的更多相关文章

  1. 论文解读( FGSM)《Adversarial training methods for semi-supervised text classification》

    论文信息 论文标题:Adversarial training methods for semi-supervised text classification论文作者:Taekyung Kim论文来源: ...

  2. Object Detection · RCNN论文解读

    转载请注明作者:梦里茶 Object Detection,顾名思义就是从图像中检测出目标对象,具体而言是找到对象的位置,常见的数据集是PASCAL VOC系列.2010年-2012年,Object D ...

  3. 面向个性化需求的在线云数据库混合调优系统 | SIGMOD 2022入选论文解读

    SIGMOD 数据管理国际会议是数据库领域具有最高学术地位的国际性会议,位列数据库方向顶级会议之首.近日,腾讯云数据库团队的最新研究成果入选 SIGMOD 2022 Research Full Pap ...

  4. [Pytorch框架] 4.1 Fine tuning 模型微调

    文章目录 4.1 Fine tuning 模型微调 4.1.1 什么是微调 为什么要微调 迁移学习 Transfer Learning 二者关系 4.1.2 如何微调 4.1.3 注意事项 4.1.3 ...

  5. (原)caffe中fine tuning及使用snapshot时的sh命令

    转载请注明出处: http://www.cnblogs.com/darkknightzh/p/5946041.html 参考网址: http://caffe.berkeleyvision.org/tu ...

  6. itemKNN发展史----推荐系统的三篇重要的论文解读

    itemKNN发展史----推荐系统的三篇重要的论文解读 本文用到的符号标识 1.Item-based CF 基本过程: 计算相似度矩阵 Cosine相似度 皮尔逊相似系数 参数聚合进行推荐 根据用户 ...

  7. CVPR2019 | Mask Scoring R-CNN 论文解读

    Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读 作者 | 文永亮 研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...

  8. AAAI2019 | 基于区域分解集成的目标检测 论文解读

    Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学 ...

  9. Fine Tuning

    (转载自:WikiPedia) Fine tuning is a process to take a network model that has already been trained for a ...

  10. Gaussian field consensus论文解读及MATLAB实现

    Gaussian field consensus论文解读及MATLAB实现 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 一.Introduction ...

随机推荐

  1. 2023.5.16 总结 AT_abc260_g

    atcoder AT_abc260_g 题意 一个点 O 可以影响到其它点,能影响到的点的坐标满足:(\((u, v)\) 为当前点的坐标,\((x, y) 为能影响到的点的坐标\)) \(u\le ...

  2. Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535.

    问题描述 新建表或者修改表varchar字段长度的时候,出现这个错误 Row size too large. The maximum row size for the used table type, ...

  3. phpstudy-sqlilabs-less-14

    题目:POST - Double Injection - Single quotes- String - with twist 和上关一模一样 uname=1"or 1=1 #&pa ...

  4. springboot 分析源码欢迎页和图标-> thymeleaf模板引擎常用语法->扩展

    欢迎页: icon: 注意点:  thymeleaf模板引擎 1.使用thymeleaf模板引擎前要导入对应依赖包 2.阅读源码: 根据源码说明我们可以将html文件放置在templates目录下,然 ...

  5. remote: HTTP Basic:Access denied fatal:Authentication failed for

    近来在一天新电脑上面使用git pull 一个项目,老是提示 Access denied, 找了许多方法,ssh key这些都配置了还是不行,当时别提有多尬 看嘛这就是pull 时的提示 // *** ...

  6. drf——jwt

    jwt原理 使用jwt认证和使用session认证的区别 三段式 eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzdWIiOiIxMjM0NTY3ODkwIiwibm ...

  7. CentOS Linux 7 安全基线设置

    作为一个生信人,不管是日常的数据分析还是其他工具应用的开发,服务器的安全始终是一个无法避免的话题.尤其是当我们拿到一台新的服务器,我们需要怎样才能确保它是安全可靠,并最小限度降低它被攻击的可能性? 下 ...

  8. 常见 Linux 提权

    Common Linux Privesc 记录 常见 Linux 提权的 提权方式:水平提权,垂直提权. 水平提权:这是您通过接管与您处于相同权限级别的不同用户来扩大您对受感染系统的影响的地方. 例如 ...

  9. CSI架构和原理

    CSI CSI简介 CSI的诞生背景 K8s 原生支持一些存储类型的 PV,如 iSCSI.NFS.CephFS 等等,这些 in-tree 类型的存储代码放在 Kubernetes 代码仓库中.这里 ...

  10. pytorch的torch、torchvision、torchaudio版本对应关系

    torch与torchvision对应关系 torch与torchaudio对应关系