论文发表于自然语言处理顶刊TACL-2024(原文链接)。目前模型编辑方法的评估主要集中在测试单个事实是否被成功注入,以及模型对其它事实的预测是否没有改变。作者认为这样的评估模式有限,因为注入一个事实会产生涟漪效应,模型应该同步更新一系列的额外事实。比如当注入:z是e的母亲时。模型应该同步更新:z的孩子是e的兄弟姐妹。为了解决这个问题:

  1、提出一套新的评价标准,考虑模型编辑对涟漪效应的影响。

  2、基于知识图构建了数据集RIPPLEDITS,用于捕捉各种类型的涟漪效应。

  3、在RIPPLEDITS上评估了之前的编辑方法,发现简单的in-context编辑baseline获得了最好的分数,为模型编辑提供了一个有前途的研究方向。

  阅读本文请同时参考原始论文图表。

方法

评价指标

  如图1所示,当将埃菲尔铁塔所在城市修改为伦敦时,模型不但要回答出埃菲尔铁塔所在城市是伦敦,并且无关事实对的回答不能变动,还要回答出:1、所在国家是英国而不是法国。2、对应的协调世界时是UTC+0。也就是一系列受到这个编辑影响的事实都要作相应的修改,称为这些事实为涟漪效应 (Ripple Effects)。

  对于一个给定模型,假设它学习到的知识可以表示为知识图谱的形式$\mathcal{K}=\{(e_i,r_i,o_i)\}_{i=1}^N$。则对于该模型的一个知识编辑$\delta:(e,r,o)\to (e,r,o^*)$,定义其涟漪效应为受到$\delta$影响的事实集合$\mathcal{R}(\delta)$,并称集合大小$|\mathcal{R}(\delta)|$为这个编辑的严重程度。

  由于涟漪效应跨度可能十分大,本文主要关注与编辑事实的实体$e,o$距离两跳以内的事实。为了评估模型的涟漪效应,提出了六个具体的评估标准。以修改事实(Prince, sibling, Nicholas Carminowe)为例,即修改后的模型关于问题:The sibling of Prince are …,有答案Nicholas Carminowe。六个评估标准如图2所示:

  A、逻辑泛化 (Logical generalization, LG):测试模型是否回忆事实$(x,r',z)$,其中$x\in \{e,o,o^*\}$,$r'$是与$r$语义相关的关系。A中举了一个与原始提问对称的例子,即测试事实$(o^*,r,e)$。

  B、组合I (Compositionality I, CI):通过链接$(e,r,o^*)$与$(o^*,r',z)$,测试模型是否回忆事实$(e,r'',z)$。其中模型在编辑之前就已知事实$(o^*,r',z)$,关系$r''$为$r,r'$的组合,从而通过关系组合跳过$o^*$。

  C、组合II (Compositionality II, CII):通过链接$(e',r',e)$与$(e,r,o^*)$,测试模型是否回忆事实$(e',r'',o^*)$。其中模型在编辑之前就已知事实$(e',r',e)$,关系$r''$为$r',r$的组合,从而通过关系组合跳过$e$。

  D、主体别名 (Subject Aliasing, SA):测试模型是否回忆事实$(e',r,o^*)$,其中$e'$是$e$的别名。

  E、遗忘度 (Forgetfulness, FN):对于1-N的关系$r$,测试模型是否回忆$(e,r,o')$。其中$(e,r,o')$是模型编辑前已知的事实。

  F、关系特异性 (Relation Specificity, RS):测试模型是否回忆与编辑事实无关的事实。

数据集构建

  本文使用知识图构建基于以上评价指标的数据集RIPPLEDITS:

  1、事实三元组的收集:从WIKIDATA(由事实三元组构成的关系知识库)中收集待编辑的事实三元组,依据三个原则:最近(Recent)、随机(Random)、流行(Popular)。

  2、事实三元组的修改:对于Recent类型的三元组,模型训练时没有涉及,因此可以直接使用。对于Random和Popular类型的三元组,将相应的三元组事实修改为反事实。

  3、关于以上得到的每个待编辑事实三元组,收集六个评估指标对应的测试三元组。

  4、将所有事实三元组用模板转换为自然语言。

  统计数据如表1所示和图4所示。

实验

  图5:in-context编辑 (ICE) 的例子。

  表3/4/5:各编辑方法在各模型上以及不同数据类别上的编辑结果。可以看出In-context编辑的综合效果最好。

  表6:SOTA方法编辑GPT-2在4个评价指标上的平均结果。可以看出这些方法在这些涟漪效应上效果很差。

  图6:ROME在不同参数的模型上编辑的准确率变化图。可以看出,模型参数量越大,ROME准确率越高。

  图7:ROME、MEMIT、MEND分别使用三类数据编辑GPT-2在6个评价指标上的平均结果。

总结

  1、本文在MQUAKE和浙大综述之后,2023/7/24发布arxiv。

  2、本文所讨论的涟漪效应和浙大综述论文(Yao 等, 2023)中提到的可移植性 (Portability) 类似,但本文进一步细化为6个类别,综述中仅主要考虑了本文的2效应。

Benchmark论文解读:Evaluating the Ripple Effects of Knowledge Editing in Language Models的更多相关文章

  1. NLP论文解读:无需模板且高效的语言微调模型(下)

    原创作者 | 苏菲 论文题目: Prompt-free and Efficient Language Model Fine-Tuning 论文作者: Rabeeh Karimi Mahabadi 论文 ...

  2. 论文解读(ValidUtil)《Rethinking the Setting of Semi-supervised Learning on Graphs》

    论文信息 论文标题:Rethinking the Setting of Semi-supervised Learning on Graphs论文作者:Ziang Li, Ming Ding, Weik ...

  3. itemKNN发展史----推荐系统的三篇重要的论文解读

    itemKNN发展史----推荐系统的三篇重要的论文解读 本文用到的符号标识 1.Item-based CF 基本过程: 计算相似度矩阵 Cosine相似度 皮尔逊相似系数 参数聚合进行推荐 根据用户 ...

  4. CVPR2019 | Mask Scoring R-CNN 论文解读

    Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读 作者 | 文永亮 研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...

  5. AAAI2019 | 基于区域分解集成的目标检测 论文解读

    Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学 ...

  6. Gaussian field consensus论文解读及MATLAB实现

    Gaussian field consensus论文解读及MATLAB实现 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 一.Introduction ...

  7. zz扔掉anchor!真正的CenterNet——Objects as Points论文解读

    首发于深度学习那些事 已关注写文章   扔掉anchor!真正的CenterNet——Objects as Points论文解读 OLDPAN 不明觉厉的人工智障程序员 ​关注他 JustDoIT 等 ...

  8. NIPS2018最佳论文解读:Neural Ordinary Differential Equations

    NIPS2018最佳论文解读:Neural Ordinary Differential Equations 雷锋网2019-01-10 23:32     雷锋网 AI 科技评论按,不久前,NeurI ...

  9. [论文解读] 阿里DIEN整体代码结构

    [论文解读] 阿里DIEN整体代码结构 目录 [论文解读] 阿里DIEN整体代码结构 0x00 摘要 0x01 文件简介 0x02 总体架构 0x03 总体代码 0x04 模型基类 4.1 基本逻辑 ...

  10. 【抓取】6-DOF GraspNet 论文解读

    [抓取]6-DOF GraspNet 论文解读 [注]:本文地址:[抓取]6-DOF GraspNet 论文解读 若转载请于明显处标明出处. 前言 这篇关于生成抓取姿态的论文出自英伟达.我在读完该篇论 ...

随机推荐

  1. Git工作流介绍

    前言 工作流其实不是一个初级主题,背后的本质问题其实是有效的项目流程管理和高效的开发协同约定,不仅是Git或SVN等SCM工具的使用. 集中式工作流 如果你的开发团队成员已经很熟悉Subversion ...

  2. go 遍历修改切片数据

    package main import "fmt" type good struct { id int64 sum int64 } func main() { good1 := g ...

  3. B@se-还原错误字母表转码的base64编码

    题目: 密文:MyLkTaP3FaA7KOWjTmKkVjWjVzKjdeNvTnAjoH9iZOIvTeHbvD== JASGBWcQPRXEFLbCDIlmnHUVKTYZdMovwipatNOe ...

  4. 工作日记-LED串口开发

    背景 公司最近的一个项目中需要使用LED显示屏实时显示一些数据,经过调研,项目经理选择了泰美泉公司的产品,前几日硬件设备到了之后,笔者负责的中间件组就马不停蹄的开始了实际的调研与测试工作,因为之前有过 ...

  5. 【SpringCloud】SpringCloud config分布式配置中心

    SpringCloud config分布式配置中心 概述 分布式系统面临的---配置问题 微服务意味着要将单体应用中的业务拆分成一个个子服务 ,每个服务的粒度相对较小,因此系统中会出现大量的服务.由于 ...

  6. unigui的部署【9】

    1.UniGUIServerModule的事件: procedure TUniServerModule.UniGUIServerModuleBeforeInit(Sender: TObject);be ...

  7. kettle介绍-Step之Abort

    Abort中止介绍 中止步骤用于读取指定行数之后停止读取剩余行数,可以用于调试转换 Step Name:步骤的名称,在单一的转换中,名称必须唯一 Abort threshold:指定行数,转换读取到指 ...

  8. 一些软件、jar包下载链接、方法

    目录 jar包下载 dbutils C3P0 软件下载 TeamViewer 远程桌面 EV录屏 SublimeText 编辑器 feiQ 通信 文件共享 jdk 8u171 下载 jar包下载 db ...

  9. Gin RBAC 权限基础实现

    RBAC (基于角色的访问控制) 是一种广泛应用的权限管理模型, 通过 角色 将 用户 和 权限 解耦, 简化权限分配管理. 用户 (User): 系统的使用者 权限 (Permission): 对资 ...

  10. C++/Python混合编程

    以 C++ 为底层基础,Python 作为上层建筑,共同搭建起高性能.易维护.可扩展的混合系统. Python 本身就有 C 接口,可以用 C 语言编写扩展模块,把一些低效耗时的功能改用 C 实现,有 ...