让 LLM 来评判 | 技巧与提示
这是 让 LLM 来评判 系列文章的第六篇,敬请关注系列文章:
LLM 评估模型已知偏差及缓解措施:
- 缺乏内部一致性:同一 prompt 输入评估模型执行多次得到的结果可能不一样 (如果温度参数不设为 0)。
- 缓解措施:遵循 “自我一致性 (self-consistency)” 设置 prompt,输入模型执行多次并保留多数结果
- 自我偏好:LLM 评估模型更 偏好自己的输出模式,因此会对模式相似的结果评分偏高。
- 缓解措施:采用陪审团机制
- 输入扰动不敏感:评估模型对 扰动输入 的辨识效果较差,难以提供一致的评分范围 (更多实验结果可以参考 这个链接)。例如对于施加了相同程度噪声的文本,使用评估模型评估文本质量的评分无法反映噪声的程度。
- 缓解措施:
- 要求模型先输出详细的推理过程 再输出评分
- 在 prompt 中添加一致的评分标准
- 缓解措施:
- 位置偏差:评估模型更 偏好特定位置的答案。例如在成对比较时,Claude 和 GPT3.5 在多次测试中通常会偏好某一个位置,例如第一个或第二个答案。
- 缓解措施:
- 随机调整答案位置
- 计算所有选项的对数概率并归一化
- 缓解措施:
- 冗长偏好 (长度偏差):评估模型更偏好冗长的答案。
- 缓解措施:考虑答案中的长度差异
- 难以对齐人类答案:
- 在所有评估中,人工评估是否可以作为一个不错的基线尚有争议。例如在某些特定领域 (如医学、法律、数学等),如果标注员专业性不够,那么得到的结果可能跟直接采用 LLM 一样差。
- 格式偏差:如果输入模型的 prompt 格式与其训练数据的格式 相差甚远,可能导致模型的评估结果不准确。例如,成对比较模型的训练集数据格式中提供了参考答案,如果在评估时没有给定参考答案或者给定的参考答案格式有误,那么评估结果就不可信。
- 缓解措施:仔细遵循评估模型训练集 prompt 格式 (比如指令微调模型的格式)。
选择合适的 LLM 评估任务
LLM 评估特性:
- 很难识别幻觉:尤其是部分幻觉 (与事实非常相近,仅有微小的区别而导致错误)。(可以参考这两篇论文:链接 1 和 链接 2)。
- 许多任务上与人工评估一致性不高:如 总结任务 (也可以参考 这篇)、输入遵循忠实度,更多任务请参考 这篇论文。
英文原文: evaluation-guidebook/contents/model-as-a-judge/tips-and-tricks.md
原文作者: clefourrier
译者: SuSung-boy
审校: adeenayakup
让 LLM 来评判 | 技巧与提示的更多相关文章
- 分享iOS最喜欢的技巧和提示
转自:http://blog.csdn.net/biggercoffee/article/details/50394027 Objective-C 1.让Xcode的控制台支持LLDB类型的打印 这有 ...
- 分享你最喜欢的技巧和提示(Xcode,Objective-C,Swift,C...等等)
http://www.cocoachina.com/ios/20151231/14846.html 笔者分享总结如下(本篇会不定期进行更新) : Objective-C 1.让Xcode的控制台支持L ...
- 学习老外用webstorm开发nodejs的技巧--代码提示DefinitelyTyped
最近入了nodejs的坑,作为老码农,js对我来说还是很容易的.webstorm虽说用得不多,但是pycharms我是老手了,idea的东西一脉相承,想想也就那样了. 但是自从看了某个视频后,觉得毕竟 ...
- css常用技巧:input提示文字;placeholder字体修改
1 很多网站都需要更改 <input>内部的placeholder 文字颜色属性:下面来介绍下这个技巧. 2 源代码: <!DOCTYPE html><html> ...
- 『干货』分享你最喜欢的技巧和提示(Xcode,objective-c,swift,c...等等)
亲爱的读者们,你们好 !年底将近,分享从过去一年你最喜欢的技巧和建议作为礼物送给新手们.提交你的最喜欢的迅速或objc琐事,实用的提示,意外的发现,实用的解决方法,没用的迷恋,或不论什么其它你认为今年 ...
- ios开发小技巧之提示音播放与震动
在ios开发中,有时候我们需要频繁播放某种提示声音,比如微博刷新提示音.QQ消息提示音等,对于这些短小且需要频繁播放的音频,最好将其加入到系统声音(system sound)里. 注意: 需要播放的音 ...
- Eclipse使用技巧--自动提示
window->Preferences->java->Editor->Content Assist 一:Auto activation delay 智能提示反应时间(毫秒) 二 ...
- webstorm开发nodejs的技巧--代码提示DefinitelyTyped
先发视频“WebStorm - MEAN Stack Walkthrough and Tips”,地址:http://www.tudou.com/programs/view/txhBUA7fcNA/? ...
- Unreal Engine 4 一些小技巧或提示
怎样获取当前地图的名字 在任意Actor类里,GetWorld()->GetName()就可以获得当前地图的名字
- 15 个 Docker 技巧和提示
CLI(Command Line Interface,命令行) 好的 docker ps 输出 将 docker ps 输出通过管道重定向到 less -S,避免折行: docker ps -a | ...
随机推荐
- selenium学习-常用方法
id_#当前元素的ID tag_name#获取元素标签名的属性 text#获取该元素的文本. click()#单击(点击)元素 submit()#提交表单 clear()#清除一个文本输入元 ...
- 基于Hexo实现一个静态的博客网站
原文首发:https://blog.liuzijian.com/post/8iu7g5e3r6y.html 1.初始化Hexo Hexo是中国台湾开发者Charlie在2012年创建的一个开源项目,旨 ...
- 00-串口和SSH方式登录
登录 1.板载LED灯状态说明 USB转TTL模块准备(安装ch340驱动) a.USB转TTL模块的GND接到开发板GND b.USB转TTL模块的RX接到开发板TX c.USB转TTL模块的TX接 ...
- Python更换下载源:提升包安装速度的实用指南
Python更换下载源:提升包安装速度的实用指南 Python作为一门广泛使用的编程语言,其强大的生态系统和丰富的第三方库是吸引众多开发者的关键因素之一.然而,在使用pip安装这些第三方库时,由于网络 ...
- Flink On Yarn的两种部署模式
一.内存Job管理模式yarn-per-job 使用介绍:常用的模式 二.内存集中管理模式yarn-session 使用介绍:当作业很少并且都较小,能快速执行完成时,可以使用.否则一般不会使用该模式 ...
- P1081 [NOIP 2012 提高组] 开车旅行 题解
传送门 前言 爆肝到半夜,中间假了一次,最终调过了两个样例,交上去过了. 题解 思路 首先进行预处理. 用一种你喜欢的数据结构维护每个城市的海拔,容易求出从每个城市出发,小 \(A\) 和小 \(B\ ...
- Spring单元测试(一)入门与实践
问题:如何快速测试,而不是每次测试都要重启应用? 目标:尽量只测试局部代码 不同的测试 软件工程中分为:单元测试.集成测试.功能测试.系统测试.其中功能测试和系统测试一般是测试人员的责任,但单元测试和 ...
- vivo HTTPDNS 端到端体验优化实践
作者:来自 vivo 互联网运维团队- Zhang Qianqian 在信息时代,用户的手机应用访问量日益增多,DNS 解析作为连接互联网的关键环节,也被提出了更高要求.这一背景下,HTTPDNS 域 ...
- [luogu4114] Qtree1 题解
\(LCT\) 动态维护树上路径最值,典中典了. 时间复杂度 \(O(n\log n)\). #include<bits/stdc++.h> #define fa(x) lct[x].fa ...
- webgpu学习问题,遇到了create graphics pipeline state failed错误
在学习webgpu并渲染图像时发生create graphics pipeline state failed with E_INVALIDARG (0x80070057)错误,图像无法成功渲染. ht ...