模型评测-书生浦语大模型实战营学习笔记7&大语言模型12
大语言模型学习-12.模型评测
书生浦语大模型实战营学习笔记7
视频教程特别像广告,所以这篇博客参考了很多其他内容给大家参考,主要是下面几个页面:
https://zhuanlan.zhihu.com/p/641416694
https://www.cnblogs.com/justLittleStar/p/17845341.html
https://zhuanlan.zhihu.com/p/682617717
模型的自动评测技术可以分为rule-based和model-based两大类:
- rule-based方法:
- benchmark以客观题为主,例如多选题,被测的LLM通过理解context/question,来指定最佳答案。解析LLM的response,与标准答案做对比
- 计算metric(accuracy、rouge、bleu等)
 
- model-based方法:
- 裁判员模型(e.g. GPT-4、Claude、Expert Models/Reward models)
- LLM Peer-examination
 
评价指标
rule-based:
- BLEU、ROUGE、ROUGE-L、METEOR、CIDEr、CLEU(中文版BLEU)、ChrF、ChrF++
- EM(Exact Match,问答系统)、F1(准确率、召回率)、F1α(准确率与召回率加权调和平均数)、MCC(二分类)、GPS(gender parity score)、MRR和NDCG(信息检索相关的Acc,归一化折损累积增益,是一种用于评估搜索引擎结果排序质量的方法。它衡量了搜索结果的相关性和排名顺序,通过对每个结果的相关性进行折扣,使排名靠前的结果对总分数的贡献更大。nDCG 的值在 0 到 1 之间,值越大表示排序质量越好)、Distinct(Distinct 是一种用于评估自然语言生成模型的评估方法,它衡量了生成文本中不同 n-gram 的数量和比例。
- 代码评估:目前用的最多的是pass@k
基于模型的评估:
裁判员模型
- GPT-4、Claude、Qwen-Max等 (产品APIs)
- PandLM、Auto-J (tuned from LLM, like LLaMA)
- Reward models (Ranking learning)
测评数据集

| 数据集 | 描述 | 评价指标 | 样例 | 
|---|---|---|---|
| MMLU | MassiveMultitaskLanguageUnderstanding一个多任务数据集,由各种学科的多项选择题组成。涵盖STEM、人文、社科等领域。包括57个子任务,包括初等数学、美国历史、计算机科学、法律等等。 | Accuracy | Question: In 2016, about how many people in the United States were homeless?A. 55,000B. 550,000C. 5,500,000D. 55,000,000Answer: B | 
| TriviaQA | 阅读理解数据集,包含超过65万个问题-答案-证据三元组。其包括95K个问答对,由冷知识爱好者提供 + 独立收集的事实性文档撰写 | EM(ExactMatch)F1 (word-level) | (问题-答案-证据文档) | 
| MATH | 12500道数学题,每道包含step-by-step solution | Accuracy | |
| HumanEval | HumanEval (Hand-Written Evaluation Set)一个手写的问题解决数据集,要求根据给定的问题和代码模板,生成正确的代码片段。包含164个高质量的问题,涵盖五种编程语言:Python, C++, Java, Go, 和 JavaScript。 | pass@k | 
模型评测-书生浦语大模型实战营学习笔记7&大语言模型12的更多相关文章
- 小马哥的 Java 项目实战营学习笔记(1)
		小马哥的 Java 项目实战营 小马哥的 Java 项目实战营 第二节:数据存储之 JDBC JDBC 核心 API 数据源 接口 - javax.sql.DataSource获取方式 1.普通对象初 ... 
- C语言中setjmp与longjmp学习笔记
		C语言中setjmp与longjmp学习笔记 一.基础介绍 头文件:#include<setjmp.h> 原型: int setjmp(jmp_buf envbuf) ,然而longjm ... 
- 【学习笔记】大数据技术原理与应用(MOOC视频、厦门大学林子雨)
		1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可 ... 
- Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法
		最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一机器学习是什么? 感觉和 Tom M. Mitchell的定义几乎一致, A computer program ... 
- 【大数据】Sqoop学习笔记
		第1章 Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MyS ... 
- 【大数据】SparkCore学习笔记
		第1章 RDD概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象.代码中是一个抽象类,它代表一个不可变.可 ... 
- 【大数据】Kafka学习笔记
		第1章 Kafka概述 1.1 消息队列 (1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息 ... 
- 【大数据】Hive学习笔记
		第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表, ... 
- 【大数据】SparkSql学习笔记
		第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和 DataSet,并且作为分布式 ... 
- 【大数据】Scala学习笔记
		第 1 章 scala的概述1 1.1 学习sdala的原因 1 1.2 Scala语言诞生小故事 1 1.3 Scala 和 Java 以及 jvm 的关系分析图 2 1.4 Scala语言的特点 ... 
随机推荐
- KingbaseES V8R3 运维案例 -- sys_dump备份故障“SYS_MAC_POLICY_ENFORCEMENT”
			 案例说明: 在KingbaseES V8R3执行sys_dump时出现"ERROR: permission denied for relation SYS_MAC_POLICY_ENFO ... 
- Scala 简单分词求和
			1 package chapter07 2 3 object Test17_CommonWordCount { 4 def main(args: Array[String]): Unit = { 5 ... 
- #插头dp#洛谷 5074 HDU 1693 Eat the Trees
			题目 给出 \(n*m\) 的方格,有些格子不能铺线, 其它格子必须铺,可以形成多个闭合回路. 问有多少种铺法? \(n,m\leq 12\) 分析 设 \(dp[n][m][S][0/1]\) 表示 ... 
- Promise + Async&Await + Array.reduce + 函数递归 解决网络/接口请求的依次/排队不间断间隔访问
			背景 试想在一个需要频繁更新数据的场景(例如:监控.图表类),常规方法是设置一个间隔 N 秒的定时器 setInterval:但是这种方式存在一个问题,当前一个请求时间过长时(超过了间隔时间),后一个 ... 
- Gitee码云:用git上传本地文件到码云gitee的方法
			首先登录码云 https://gitee.com/,注册一个账号,并登录账号. 1. 在码云上创建项目 在码云首页顶部,下图所示,右上角头像旁边的加号,鼠标移上去会显示下拉的,点击"新建项目 ... 
- k8s之emptyDir存储卷
			一.简介 emptyDir卷是最简单的卷,主要用于存储临时数据,当pod生命周期结束,emptyDir卷也就销毁. emptyDir卷应用场景一般是pod中多个容器共享数据,即在pod中定义一个emp ... 
- xilinx的serdes接收时钟坑
			ilinx的7 series fpga transceivers wizard用于自定义的serdes编码. 要选择多个serdes端口,如下图,点击对应的名称,然后右边选择use该设备就可以. 生成 ... 
- WPF随笔收录-RestSharp下载文件406问题
			一.前言 在项目开发过程中,涉及到通过http下载文件的需求,最近遇到一个406问题,由于第一次接触这个问题,也被问题卡了好久,在网上风暴了很久才找到解决办法: 二.解决方法 解决的办法就是在requ ... 
- vue截取video视频中的某一帧
			在vue中如何做到给视频拍照,留住那一帧的美好呢? 且看代码 <template> <div> <video src="../assets/video.mp4& ... 
- web常见的攻击方式有哪些?如何防御?
			一.是什么 Web攻击(WebAttack)是针对用户上网行为或网站服务器等设备进行攻击的行为 如植入恶意代码,修改网站权限,获取网站用户隐私信息等等 Web应用程序的安全性是任何基于Web业务的重要 ... 
