大语言模型学习-12.模型评测

书生浦语大模型实战营学习笔记7

视频教程特别像广告，所以这篇博客参考了很多其他内容给大家参考，主要是下面几个页面：

https://zhuanlan.zhihu.com/p/641416694

https://www.cnblogs.com/justLittleStar/p/17845341.html

https://zhuanlan.zhihu.com/p/682617717

模型的自动评测技术可以分为rule-based和model-based两大类：

rule-based方法：
- benchmark以客观题为主，例如多选题，被测的LLM通过理解context/question，来指定最佳答案。解析LLM的response，与标准答案做对比
- 计算metric（accuracy、rouge、bleu等）
model-based方法：
- 裁判员模型（e.g. GPT-4、Claude、Expert Models/Reward models）
- LLM Peer-examination

评价指标

rule-based：

BLEU、ROUGE、ROUGE-L、METEOR、CIDEr、CLEU(中文版BLEU)、ChrF、ChrF++
EM（Exact Match，问答系统）、F1（准确率、召回率）、F1α（准确率与召回率加权调和平均数）、MCC（二分类）、GPS（gender parity score）、MRR和NDCG（信息检索相关的Acc，归一化折损累积增益，是一种用于评估搜索引擎结果排序质量的方法。它衡量了搜索结果的相关性和排名顺序，通过对每个结果的相关性进行折扣，使排名靠前的结果对总分数的贡献更大。nDCG 的值在 0 到 1 之间，值越大表示排序质量越好）、Distinct（Distinct 是一种用于评估自然语言生成模型的评估方法，它衡量了生成文本中不同 n-gram 的数量和比例。
代码评估：目前用的最多的是pass@k

基于模型的评估：

裁判员模型

GPT-4、Claude、Qwen-Max等（产品APIs）
PandLM、Auto-J (tuned from LLM, like LLaMA)
Reward models (Ranking learning)

测评数据集

数据集	描述	评价指标	样例
MMLU	MassiveMultitaskLanguageUnderstanding一个多任务数据集，由各种学科的多项选择题组成。涵盖STEM、人文、社科等领域。包括57个子任务，包括初等数学、美国历史、计算机科学、法律等等。	Accuracy	Question: In 2016, about how many people in the United States were homeless?A. 55,000B. 550,000C. 5,500,000D. 55,000,000Answer: B
TriviaQA	阅读理解数据集，包含超过65万个问题-答案-证据三元组。其包括95K个问答对，由冷知识爱好者提供 + 独立收集的事实性文档撰写	EM(ExactMatch)F1 (word-level)	（问题-答案-证据文档）
MATH	12500道数学题，每道包含step-by-step solution	Accuracy
HumanEval	HumanEval (Hand-Written Evaluation Set)一个手写的问题解决数据集，要求根据给定的问题和代码模板，生成正确的代码片段。包含164个高质量的问题，涵盖五种编程语言：Python, C++, Java, Go, 和 JavaScript。	pass@k

模型评测-书生浦语大模型实战营学习笔记7&大语言模型12的更多相关文章

小马哥的 Java 项目实战营学习笔记（1）
小马哥的 Java 项目实战营小马哥的 Java 项目实战营第二节:数据存储之 JDBC JDBC 核心 API 数据源接口 - javax.sql.DataSource获取方式 1.普通对象初 ...
C语言中setjmp与longjmp学习笔记
C语言中setjmp与longjmp学习笔记一.基础介绍头文件:#include<setjmp.h> 原型: int setjmp(jmp_buf envbuf) ,然而longjm ...
【学习笔记】大数据技术原理与应用（MOOC视频、厦门大学林子雨）
1 大数据概述大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低数据量大:大数据摩尔定律快速化:从数据的生成到消耗,时间窗口小,可 ...
Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法
最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一机器学习是什么? 感觉和 Tom M. Mitchell的定义几乎一致, A computer program ...
【大数据】Sqoop学习笔记
第1章 Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MyS ...
【大数据】SparkCore学习笔记
第1章 RDD概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象.代码中是一个抽象类,它代表一个不可变.可 ...
【大数据】Kafka学习笔记
第1章 Kafka概述 1.1 消息队列 (1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息 ...
【大数据】Hive学习笔记
第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表, ...
【大数据】SparkSql学习笔记
第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和 DataSet,并且作为分布式 ...
【大数据】Scala学习笔记
第 1 章 scala的概述1 1.1 学习sdala的原因 1 1.2 Scala语言诞生小故事 1 1.3 Scala 和 Java 以及 jvm 的关系分析图 2 1.4 Scala语言的特点 ...

随机推荐

Amazon免费CE2基于docker部署nginx,并实现访问
在部署之前,请确保你已经申请好了CE2免费的服务器,网上的相关教程很多,可以自由参考. 一.使用xshell+公钥连接实例 1.打开xshell,导入密钥, 选择"工具" -> ...
SpaceDesk怎么连接平板/PC（提高生产力，扩展副屏）
1.下载安装分为安卓端和PC端,两个设备都需要安装对应的软件. SpaceDesk官网 https://link.zhihu.com/?target=http%3A//spacedesk.net/ ...
10 CSS边框属性
10 CSS边框属性 border-style(边框风格) 定义边框的风格,值可以有: /* none:没有边框,当border的值为none的时候,系统将会忽略[border-color] hidd ...
#单位根反演，二项式定理#LOJ 6485 LJJ 学二项式定理
题目 \[\large\sum_{i=0}^nC(n,i)S^ia_{i\bmod 4} \] \(n\leq 10^{18},S,a\leq 10^8\) 分析前面这一坨看起来就像是二项式定理,考 ...
#树链剖分，树上启发式合并#CF741D Arpa’s letter-marked tree and Mehrdad’s Dokhtar-kosh paths
题目分析考虑回文串当且仅当最多有一个字母出现奇数次, 可以记录某个二进制状态的最大深度, 一种就是点\(x\)到某个点,另一种就是经过点\(x\)的一条路径在\(x\)的子树中递归实现,重儿子保 ...
char * 、BSTR、long、wchar_t *、LPCWSTR、string、QString、CStringA类型转换
char* 转 BSTR char* s1 = "zhangsan"; CString s2 = CString(s1); BSTR s3 = s2.AllocSysString( ...
[Java SE] 经典问题：超出Java Long型(8字节/64位)的二进制比特流数据如何进行大数的数值计算？
0 问题描述经典问题:超出Java Long型(8字节/64位)的二进制比特流数据如何进行大数的数值计算? 近期工作上遇到了这个问题:需要将一个无符号数.且位长>=8字节(等于8字节时,首位b ...
重新整理.net core 计1400篇[一] (.net core 命令行)
前言把.net core 从新整理一遍. 下面介绍命令行. 正文运行一下:dotnet new --list 那么这个时候会返回非常多的模板给你们. 这时候会给我们列出:project Templ ...
ionic 4 app 自动版本更新
前言介绍一下ionic4 app的自动更新.ionic 不多介绍了,后面一个后系列,背负着骂名的ionic其实还是可以的,如果刚入门ionic可能觉得很坑,但是呢,往后你就发现另外一件事,那就是其他 ...
pytest-fixture使用
fixture(scope='function',params=None,autouse=False,ids=None,name=None):scope:设置作用域:params:传参数,以列表进行存 ...

模型评测-书生浦语大模型实战营学习笔记7&大语言模型12

大语言模型学习-12.模型评测

书生浦语大模型实战营学习笔记7

评价指标

测评数据集

模型评测-书生浦语大模型实战营学习笔记7&大语言模型12的更多相关文章

随机推荐

热门专题