论文发表于自然语言处理顶刊TACL-2024(原文链接)。目前模型编辑方法的评估主要集中在测试单个事实是否被成功注入,以及模型对其它事实的预测是否没有改变。作者认为这样的评估模式有限,因为注入一个事实会产生涟漪效应,模型应该同步更新一系列的额外事实。比如当注入:z是e的母亲时。模型应该同步更新:z的孩子是e的兄弟姐妹。为了解决这个问题:

  1、提出一套新的评价标准,考虑模型编辑对涟漪效应的影响。

  2、基于知识图构建了数据集RIPPLEDITS,用于捕捉各种类型的涟漪效应。

  3、在RIPPLEDITS上评估了之前的编辑方法,发现简单的in-context编辑baseline获得了最好的分数,为模型编辑提供了一个有前途的研究方向。

  阅读本文请同时参考原始论文图表。

方法

评价指标

  如图1所示,当将埃菲尔铁塔所在城市修改为伦敦时,模型不但要回答出埃菲尔铁塔所在城市是伦敦,并且无关事实对的回答不能变动,还要回答出:1、所在国家是英国而不是法国。2、对应的协调世界时是UTC+0。也就是一系列受到这个编辑影响的事实都要作相应的修改,称为这些事实为涟漪效应 (Ripple Effects)。

  对于一个给定模型,假设它学习到的知识可以表示为知识图谱的形式$\mathcal{K}=\{(e_i,r_i,o_i)\}_{i=1}^N$。则对于该模型的一个知识编辑$\delta:(e,r,o)\to (e,r,o^*)$,定义其涟漪效应为受到$\delta$影响的事实集合$\mathcal{R}(\delta)$,并称集合大小$|\mathcal{R}(\delta)|$为这个编辑的严重程度。

  由于涟漪效应跨度可能十分大,本文主要关注与编辑事实的实体$e,o$距离两跳以内的事实。为了评估模型的涟漪效应,提出了六个具体的评估标准。以修改事实(Prince, sibling, Nicholas Carminowe)为例,即修改后的模型关于问题:The sibling of Prince are …,有答案Nicholas Carminowe。六个评估标准如图2所示:

  A、逻辑泛化 (Logical generalization, LG):测试模型是否回忆事实$(x,r',z)$,其中$x\in \{e,o,o^*\}$,$r'$是与$r$语义相关的关系。A中举了一个与原始提问对称的例子,即测试事实$(o^*,r,e)$。

  B、组合I (Compositionality I, CI):通过链接$(e,r,o^*)$与$(o^*,r',z)$,测试模型是否回忆事实$(e,r'',z)$。其中模型在编辑之前就已知事实$(o^*,r',z)$,关系$r''$为$r,r'$的组合,从而通过关系组合跳过$o^*$。

  C、组合II (Compositionality II, CII):通过链接$(e',r',e)$与$(e,r,o^*)$,测试模型是否回忆事实$(e',r'',o^*)$。其中模型在编辑之前就已知事实$(e',r',e)$,关系$r''$为$r',r$的组合,从而通过关系组合跳过$e$。

  D、主体别名 (Subject Aliasing, SA):测试模型是否回忆事实$(e',r,o^*)$,其中$e'$是$e$的别名。

  E、遗忘度 (Forgetfulness, FN):对于1-N的关系$r$,测试模型是否回忆$(e,r,o')$。其中$(e,r,o')$是模型编辑前已知的事实。

  F、关系特异性 (Relation Specificity, RS):测试模型是否回忆与编辑事实无关的事实。

数据集构建

  本文使用知识图构建基于以上评价指标的数据集RIPPLEDITS:

  1、事实三元组的收集:从WIKIDATA(由事实三元组构成的关系知识库)中收集待编辑的事实三元组,依据三个原则:最近(Recent)、随机(Random)、流行(Popular)。

  2、事实三元组的修改:对于Recent类型的三元组,模型训练时没有涉及,因此可以直接使用。对于Random和Popular类型的三元组,将相应的三元组事实修改为反事实。

  3、关于以上得到的每个待编辑事实三元组,收集六个评估指标对应的测试三元组。

  4、将所有事实三元组用模板转换为自然语言。

  统计数据如表1所示和图4所示。

实验

  图5:in-context编辑 (ICE) 的例子。

  表3/4/5:各编辑方法在各模型上以及不同数据类别上的编辑结果。可以看出In-context编辑的综合效果最好。

  表6:SOTA方法编辑GPT-2在4个评价指标上的平均结果。可以看出这些方法在这些涟漪效应上效果很差。

  图6:ROME在不同参数的模型上编辑的准确率变化图。可以看出,模型参数量越大,ROME准确率越高。

  图7:ROME、MEMIT、MEND分别使用三类数据编辑GPT-2在6个评价指标上的平均结果。

总结

  1、本文在MQUAKE和浙大综述之后,2023/7/24发布arxiv。

  2、本文所讨论的涟漪效应和浙大综述论文(Yao 等, 2023)中提到的可移植性 (Portability) 类似,但本文进一步细化为6个类别,综述中仅主要考虑了本文的2效应。

Benchmark论文解读:Evaluating the Ripple Effects of Knowledge Editing in Language Models的更多相关文章

  1. NLP论文解读:无需模板且高效的语言微调模型(下)

    原创作者 | 苏菲 论文题目: Prompt-free and Efficient Language Model Fine-Tuning 论文作者: Rabeeh Karimi Mahabadi 论文 ...

  2. 论文解读(ValidUtil)《Rethinking the Setting of Semi-supervised Learning on Graphs》

    论文信息 论文标题:Rethinking the Setting of Semi-supervised Learning on Graphs论文作者:Ziang Li, Ming Ding, Weik ...

  3. itemKNN发展史----推荐系统的三篇重要的论文解读

    itemKNN发展史----推荐系统的三篇重要的论文解读 本文用到的符号标识 1.Item-based CF 基本过程: 计算相似度矩阵 Cosine相似度 皮尔逊相似系数 参数聚合进行推荐 根据用户 ...

  4. CVPR2019 | Mask Scoring R-CNN 论文解读

    Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读 作者 | 文永亮 研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...

  5. AAAI2019 | 基于区域分解集成的目标检测 论文解读

    Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学 ...

  6. Gaussian field consensus论文解读及MATLAB实现

    Gaussian field consensus论文解读及MATLAB实现 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 一.Introduction ...

  7. zz扔掉anchor!真正的CenterNet——Objects as Points论文解读

    首发于深度学习那些事 已关注写文章   扔掉anchor!真正的CenterNet——Objects as Points论文解读 OLDPAN 不明觉厉的人工智障程序员 ​关注他 JustDoIT 等 ...

  8. NIPS2018最佳论文解读:Neural Ordinary Differential Equations

    NIPS2018最佳论文解读:Neural Ordinary Differential Equations 雷锋网2019-01-10 23:32     雷锋网 AI 科技评论按,不久前,NeurI ...

  9. [论文解读] 阿里DIEN整体代码结构

    [论文解读] 阿里DIEN整体代码结构 目录 [论文解读] 阿里DIEN整体代码结构 0x00 摘要 0x01 文件简介 0x02 总体架构 0x03 总体代码 0x04 模型基类 4.1 基本逻辑 ...

  10. 【抓取】6-DOF GraspNet 论文解读

    [抓取]6-DOF GraspNet 论文解读 [注]:本文地址:[抓取]6-DOF GraspNet 论文解读 若转载请于明显处标明出处. 前言 这篇关于生成抓取姿态的论文出自英伟达.我在读完该篇论 ...

随机推荐

  1. cnpm : 无法加载文件 C:\Users\Raytine\AppData\Roaming\npm\cnpm.ps1,因为在此系统上禁止运行脚本。

    解决方式: 1.在系统中搜索框 输入 Windos PowerShell 2.点击"管理员身份运行" 3.输入" set-ExecutionPolicy RemoteSi ...

  2. SecureCRT配置跳板机

    跳板机(Jump Server),也称堡垒机,是一类可作为跳板批量操作远程设备的网络设备,是运系统管理员或运维人员常用的操作平台之一. 大家知道,在日常的开发中,有可能我们的本机不能够直接连线上的服务 ...

  3. Tomcat之——宕机自动重启和每日定时启动tomcat

    在项目后期维护中会遇到这样的情况,tomcat在内存溢出的时候就出现死机的情况和遇到长时间不响应,需要人工手动关闭和重启服务,针对这样的突发情况,希望程序能自动处理问题而不需要人工关于,所以才有了目前 ...

  4. 解决Linux下文本文件中文乱码问题

    上一篇我们提到了OS和DB的一些中文乱码问题解决,本篇我们继续介绍下在OS上的文本文件中文乱码问题. 操作系统是Linux(OEL 8.10),所有文件是打了一个压缩包上传的,上传解压后发现其中的文本 ...

  5. 【JDBC第6章】数据库事务理论

    第6章:数据库事务 6.1 数据库事务介绍 事务:一组逻辑操作单元,使数据从一种状态变换到另一种状态. 事务处理(事务操作):保证所有事务都作为一个工作单元来执行,即使出现了故障,都不能改变这种执行方 ...

  6. 10年+ .NET Coder 心语 ── 继承的思维:从思维模式到架构设计的深度解析

    引言 ❝ 小编是一名10年+的.NET Coder,期间也写过Java.Python,从中深刻的认识到了软件开发与语言的无关性.现在小编已经脱离了一线开发岗位,在带领团队的过程中,发现了很多的问题,究 ...

  7. 掌握FastAPI与Pydantic的跨字段验证技巧

    title: 掌握FastAPI与Pydantic的跨字段验证技巧 date: 2025/04/01 00:32:07 updated: 2025/04/01 00:32:07 author: cmd ...

  8. Hyperledger Fabric - 自定义network.sh脚本

    引言:依据hyperledger fabric提供的测试网络脚本搭建自己的网络环境 该系列参考:https://blog.csdn.net/ling1998?type=blog 执行./network ...

  9. 卸载重装vscode

    最近工作需要长期用到python,但我的老电脑又实在拉不起pycharm那配置,干脆就用vscode了,但本来我的vscode是用来写c/c++的,安装配置一通乱搞,现在也不知道怎么配置回来了. 干脆 ...

  10. c#几种场景获取程序运行目录

    控制台.app等桌面应用程序(兼容系统自启) 1 System.IO.Path.GetDirectoryName(Process.GetCurrentProcess().MainModule.File ...