这是 让 LLM 来评判 系列文章的第六篇,敬请关注系列文章:

LLM 评估模型已知偏差及缓解措施:

  • 缺乏内部一致性:同一 prompt 输入评估模型执行多次得到的结果可能不一样 (如果温度参数不设为 0)。

    • 缓解措施:遵循 “自我一致性 (self-consistency)” 设置 prompt,输入模型执行多次并保留多数结果
  • 自我偏好:LLM 评估模型更 偏好自己的输出模式,因此会对模式相似的结果评分偏高。
    • 缓解措施:采用陪审团机制
  • 输入扰动不敏感:评估模型对 扰动输入 的辨识效果较差,难以提供一致的评分范围 (更多实验结果可以参考 这个链接)。例如对于施加了相同程度噪声的文本,使用评估模型评估文本质量的评分无法反映噪声的程度。
    • 缓解措施:

      • 要求模型先输出详细的推理过程 再输出评分
      • 在 prompt 中添加一致的评分标准
  • 位置偏差:评估模型更 偏好特定位置的答案。例如在成对比较时,Claude 和 GPT3.5 在多次测试中通常会偏好某一个位置,例如第一个或第二个答案。
    • 缓解措施:

      • 随机调整答案位置
      • 计算所有选项的对数概率并归一化
  • 冗长偏好 (长度偏差):评估模型更偏好冗长的答案。
  • 难以对齐人类答案
  • 格式偏差:如果输入模型的 prompt 格式与其训练数据的格式 相差甚远,可能导致模型的评估结果不准确。例如,成对比较模型的训练集数据格式中提供了参考答案,如果在评估时没有给定参考答案或者给定的参考答案格式有误,那么评估结果就不可信。
    • 缓解措施:仔细遵循评估模型训练集 prompt 格式 (比如指令微调模型的格式)。

选择合适的 LLM 评估任务

LLM 评估特性:


英文原文: evaluation-guidebook/contents/model-as-a-judge/tips-and-tricks.md

原文作者: clefourrier

译者: SuSung-boy

审校: adeenayakup

让 LLM 来评判 | 技巧与提示的更多相关文章

  1. 分享iOS最喜欢的技巧和提示

    转自:http://blog.csdn.net/biggercoffee/article/details/50394027 Objective-C 1.让Xcode的控制台支持LLDB类型的打印 这有 ...

  2. 分享你最喜欢的技巧和提示(Xcode,Objective-C,Swift,C...等等)

    http://www.cocoachina.com/ios/20151231/14846.html 笔者分享总结如下(本篇会不定期进行更新) : Objective-C 1.让Xcode的控制台支持L ...

  3. 学习老外用webstorm开发nodejs的技巧--代码提示DefinitelyTyped

    最近入了nodejs的坑,作为老码农,js对我来说还是很容易的.webstorm虽说用得不多,但是pycharms我是老手了,idea的东西一脉相承,想想也就那样了. 但是自从看了某个视频后,觉得毕竟 ...

  4. css常用技巧:input提示文字;placeholder字体修改

    1 很多网站都需要更改 <input>内部的placeholder 文字颜色属性:下面来介绍下这个技巧. 2  源代码: <!DOCTYPE html><html> ...

  5. 『干货』分享你最喜欢的技巧和提示(Xcode,objective-c,swift,c...等等)

    亲爱的读者们,你们好 !年底将近,分享从过去一年你最喜欢的技巧和建议作为礼物送给新手们.提交你的最喜欢的迅速或objc琐事,实用的提示,意外的发现,实用的解决方法,没用的迷恋,或不论什么其它你认为今年 ...

  6. ios开发小技巧之提示音播放与震动

    在ios开发中,有时候我们需要频繁播放某种提示声音,比如微博刷新提示音.QQ消息提示音等,对于这些短小且需要频繁播放的音频,最好将其加入到系统声音(system sound)里. 注意: 需要播放的音 ...

  7. Eclipse使用技巧--自动提示

    window->Preferences->java->Editor->Content Assist 一:Auto activation delay 智能提示反应时间(毫秒) 二 ...

  8. webstorm开发nodejs的技巧--代码提示DefinitelyTyped

    先发视频“WebStorm - MEAN Stack Walkthrough and Tips”,地址:http://www.tudou.com/programs/view/txhBUA7fcNA/? ...

  9. Unreal Engine 4 一些小技巧或提示

    怎样获取当前地图的名字 在任意Actor类里,GetWorld()->GetName()就可以获得当前地图的名字

  10. 15 个 Docker 技巧和提示

    CLI(Command Line Interface,命令行) 好的 docker ps 输出 将 docker ps 输出通过管道重定向到 less -S,避免折行: docker ps -a |  ...

随机推荐

  1. 抽取网易云音乐热门评论:html+css+python+js 音乐与灵魂的碰撞

    抽取网易云音乐热门评论:html+css+python+js 音乐与灵魂的碰撞 代码链接 不说废话,上代码!!! get.py # get.py import urllib.request impor ...

  2. java中的文件流File

    数据 + 流(转)操作 IO I表示的是:输入Input O表示的是:Output Stream表示流转 java中的管道不止一个.并且管道有可能不是一样的. 有的管道粗有的管道细 File的常用方法 ...

  3. oracle 删除过期归档脚本

    一.定时任务 crontab -e 编辑 每周6凌晨3点执行脚本 0 3 * * 6 . /home/oracle/scripts/arch_delete_before_60days_arch.sh ...

  4. linux ubuntu安装mysql

    一.下载安装 sudo apt-get install mysql-server 二.初始化配置 查看密码:sudo more /etc/mysql/debian.cnf 连接:mysql -uroo ...

  5. 用python做时间序列预测四:*稳/非*稳时间序列

    上篇文章简单提到了应该用*稳时间序列做预测,本文将介绍具体概念和原因. Stationary Series *稳序列 *稳序列有三个基本标准: 1.序列的均值(mean)不应该是时间的函数(意思是不应 ...

  6. Thymeleaf判断集合是否为空

    Thymeleaf判断集合是否为空最近项目使用的是thymeleaf.项目架构是Springboot+Thymeleaf. 在判断集合是否为空的时候踩了坑与大家分享. 以下代码是判断集合是否为空的,m ...

  7. Deepseek深度求索教程:从入门到精通,免费获取清华大学新闻学院104页完整指南

    在当今信息爆炸的时代,如何高效地获取和利用知识成为了每个人面临的挑战.Deepseek深度求索作为一款强大的信息检索工具,正逐渐成为学术界和专业人士的首选.为了帮助大家更好地掌握Deepseek的使用 ...

  8. springboot接入方式对接股票数据源API接口

    为了创建一个Java项目来对接StockTV的API接口,我们可以使用HttpURLConnection或第三方库如OkHttp来发送HTTP请求,并使用Java-WebSocket库来处理WebSo ...

  9. JVM运行参数

    一.三种参数类型 1.标准参数:比较稳定,以后版本会保留 -help -version 2.-X参数(非标准参数) -Xint -Xcomp 3.-XX参数(非标准参数,使用率较高) -XX:newS ...

  10. Java Map一些基本使用方法

    1 // Map key值不能相同,value值可以相同 2 // HashMap中的Entry对象是无序排列的 3 4 // 实例化1 5 Map<String, String> map ...