论文发表于人工智能顶会NeurIPS(原文链接)。当前的模型编辑器会因多次编辑损害模型性能,提出用于连续编辑的通用检索适配器(General Retrieval Adapters for Continual Editing, GRACE):使用一个类似字典的结构(适配器)为需要修改的潜在表示构建新的映射,通过更新适配器来实现持续的模型行为编辑。

方法

  GRACE是一种不修改模型权重编辑预训练模型行为的方法,适用于任何模型。为模型$f$在需要修改的层$l$添加一个适配器,其中包含一个编码本$\mathcal{C}=\{(k_i,v_i,\epsilon_i)\}_{i=1}^C$。其中的$k_i,v_i$表示修改后的输入和它对应的输出(通过反向传播微调得到),$\epsilon_i$表示当该层输入$h^{l-1}$与$k_i$的距离$d(h^{l-1},k_i)$小于$\epsilon_i$时,就使用$v_i$作为该层输出,否则正常输出该层的推理结果。这里的距离计算方式$d(\cdot)$使用欧氏距离。

  GRACE编辑模型某层$l$的过程就是往编码本$\mathcal{C}$中添加词条的过程。如果$f(x_t)\neq y_t$,就期望通过修改所选的某层$l$关于$x_t$的输出$h^l$来使得$f(x_t)= y_t$:

  1、对于第一个模型不满足的样本$(x_0,y_0)$来说,就是直接往$\mathcal{C}$中添加$(h^{l-1}_0,h^l_0,\epsilon_{ini})$。其中$h^{l-1}_0$是$x_0$在第$l-1$层的输出,$h^l_0$则是通过优化第$l$层的输出使得模型输出为$y_t$得到,$\epsilon_{ini}$是需要人为定义的初始化距离。

  2、对于后续$f(x_t)\neq y_t$的情况,使用算法1来对$\mathcal{C}$进行更新。

  对于PLM来说,作者仅在相应的层上对输入句子的最后一个token进行编辑,通过实验验证。

实验

  图2:在toy二分类MLP上的编辑结果。a可视化模型正确分类两类样本。b在红色样本区域额外添加了要被判别为蓝色的样本。c修改前,模型将新增的样本判别为红。d修改后,模型将新增样本判别为蓝,并不影响其他判别。

  表1:各方法在三个数据集和对应模型上的编辑效果。TRR:模型编辑后对原始测试集的保留度。ERR:按顺序编辑模型对之前编辑的记忆的保留度。#E:模型使用各方法编辑的次数。Hallucination是对大模型幻觉的编辑,测试的是根据prompt生成句子的PPL。ROME没有在T5上实验是因为它只适用于GPT。

  图4:初始距离$\epsilon_{ini}$和模型编辑块的选择对编辑效果的影响。其中,Holdout是在没见过的数据集上的泛化效果。可以看出:

  • 随着编辑数量的增加,在Holdout上的准确率会变高,说明了编辑的泛化效果。

  • 中间层的编辑效果相较于两端编辑效果更好。

  • $\epsilon_{ini}$越小,对原始记忆的保留程度越不容易随着编辑次数的增加而降低。

  • $\epsilon_{ini}$越大,随着编辑次数的增加,在$\mathcal{C}$中添加的词条增长越缓慢。

问题

  1、球之间的重叠不能避免:当添加第二个不同标签的球后,第一个球和第二个球相切,如果再来一个样本需要扩大前两个球之一,也就是算法中的Expand情况,两个球就会重叠,导致重叠部分输出不一致。

  2、无法确定潜在变量之间的距离能表征输出之间的语义相似性,如果属于某个非线性空间,计算欧氏距离可能有问题

论文解读:Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adapters的更多相关文章

  1. 论文解读《Plug-and-Play Priors for Model Based Reconstruction》

    这篇论文主要概述了model-baesd的方法在解决图像恢复的逆问题的很好的效果,降噪问题其实就是前向模型的H是一个恒等算子,将state-of-the-art的降噪算法(先验模型)和相对应的逆问题的 ...

  2. A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation 论文解读(SIGMOD 2021)

    A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation 论文解读(SIGMOD 2 ...

  3. AAAI2019 | 基于区域分解集成的目标检测 论文解读

    Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学 ...

  4. [论文解读] 阿里DIEN整体代码结构

    [论文解读] 阿里DIEN整体代码结构 目录 [论文解读] 阿里DIEN整体代码结构 0x00 摘要 0x01 文件简介 0x02 总体架构 0x03 总体代码 0x04 模型基类 4.1 基本逻辑 ...

  5. 图像分类:CVPR2020论文解读

    图像分类:CVPR2020论文解读 Towards Robust Image Classification Using Sequential Attention Models 论文链接:https:// ...

  6. 自监督学习(Self-Supervised Learning)多篇论文解读(下)

    自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...

  7. 自监督学习(Self-Supervised Learning)多篇论文解读(上)

    自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...

  8. 论文解读(SDNE)《Structural Deep Network Embedding》

    论文题目:<Structural Deep Network Embedding>发表时间:  KDD 2016 论文作者:  Aditya Grover;Aditya Grover; Ju ...

  9. 论文解读第三代GCN《 Deep Embedding for CUnsupervisedlustering Analysis》

    Paper Information Titlel:<Semi-Supervised Classification with Graph Convolutional Networks>Aut ...

  10. 论文解读(IDEC)《Improved Deep Embedded Clustering with Local Structure Preservation》

    Paper Information Title:<Improved Deep Embedded Clustering with Local Structure Preservation>A ...

随机推荐

  1. 【Unit4】UML解析器(模型化设计)-作业总结 & 【BUAA-OO】课程总结

    第四单元作业总结 1.题目概述 UML类图建模与查询(8) + UML顺序图/状态图建模与查询(3+3) + 模型错误检查(9),三次迭代共23条命令 2.构架设计 一开始以为和第三单元差不多,稍微用 ...

  2. 张高兴的大模型开发实战:(一)使用 Selenium 进行网页爬虫

    目录 什么是 Selenium 环境搭建与配置 安装 Selenium 下载浏览器驱动 基础操作 启动浏览器并访问网页 定位网页元素 通过 ID 定位 通过 CSS 选择器定位 通过 XPath 定位 ...

  3. 实现Windows之间(win10)的桌面连接的三步走方法

    实现Windows之间(win10)的远程桌面连接的三步走方法 ‍ 目录 ‍ 目录 实现Windows之间(win10)的远程桌面连接的三步走方法 目录 环境 step1:打开两台Windows电脑的 ...

  4. es6 export和export default的区别

    相同点 export 与 export default 均可用于导出常量.函数.文件.模块 可在其它文件或模块中通过import+(常量 | 函数 | 文件 | 模块)名的方式,将其导入,以便能够对其 ...

  5. ASP.NET Core 模型验证消息的本地化新姿势

    最近在研究系统本地化的问题,不可避免要实现模型类的验证消息本地化.毕竟这些错误消息是要返回给用户的. 疑问产生 在MVC模型下,我们会使用模型类对请求参数进行绑定和验证.举个例子: public cl ...

  6. 【JDBC第1章】JDBC概述

    第1章:JDBC概述 1.1 数据的持久化 持久化(persistence):把数据保存到可掉电式存储设备中以供之后使用.大多数情况下,特别是企业级应用,数据持久化意味着将内存中的数据保存到硬盘上加以 ...

  7. Golang HTTPS

    用golang来实现的webserver通常是是这样的 //main.go package main import ( "fmt" "io" "net ...

  8. Java 与 LLM 大模型融合的技术革命:JBoltAI 如何重构企业级 AI 开发范式

    Java 与 LLM 大模型融合的技术革命:JBoltAI 如何重构企业级 AI 开发范式 一.Java 技术栈的智能化转型挑战 随着 LLM(大语言模型)技术的突破,全球超过 900 万家 Java ...

  9. Mouse Down鼠标操作指令的用法

    如下图 暂无评论的按钮在整页下方,需要拖动页面才会显示出这个按钮,否则不可点击 Mouse Down  提供拖动页面的能提 这个方法因selenium2library和AutoItLibrary 都有 ...

  10. wordpress插件开发时如何通过js调用图库/媒体选择器的问题

    效果: 原文地址: wordpress插件开发通过js调用图库/媒体选择器的问题 - 搜栈网 (seekstack.cn)