大模型评测之幻觉检测hallucination_evaluation

大背景：

2025开年deepseek铺天盖地的新闻
参会代表已经表明，年度主线就是以AI为基础
Manus于3月初横空出世
国内各种模型竞赛的现状，只要是和科技沾边的公司不可能没有大模型，哪怕是里三层外三层套壳也得上
东升西降，宏观使然，竞争中必然有科技竞争

小背景　

本公司自研大模型rd，在模型排名中必有一席之地
除了加大力度研发，还需各种评测
正好，吾就是一名专业的模型评测员
随着各种假信息的泛滥，模型越来越不清楚安全的边界、真实的边界，只是于铺天盖地的网页中查找然后总结，算不上一个优秀的大模型

幻觉检测

　　什么是幻觉检测？

　　官网中介绍到：“HHEM模型系列旨在检测 LLM 中的幻觉。它们在构建检索增强生成 (RAG) 应用程序的背景下特别有用，其中 LLM 总结了一组事实，并且 HHEM 可用于衡量该总结与事实在事实上的一致程度。”

　　说人话，就是检测一下大模型对事实的认知能力如何。

　　大模型地址：https://huggingface.co/vectara/hallucination_evaluation_model

如何做幻觉检测

仔细阅读中大模型地址的Model Card部分，这对你理解 “事实但是幻觉” 很重要。　
把项目克隆下来，待会儿要用到里面的模型进行计算
下载官方数据集，https://huggingface.co/datasets/vectara/leaderboard_results/tree/main ，数据集是一个很大的csv文件，里面是用于测试幻觉的各种问题，用于模型的输入
使用提示语，提示语要和问题进行拼接

编写一个脚本，从csv中读取问题，请求大模型，再将大模型的答案追加到后一列。参考如下：

def huan_jue():

    df = pd.read_csv('leaderboard_summaries.csv', encoding='utf-8')

    df = df[df['model'] == 'deepseek/deepseek-v3']

    data = {"source": [], 'ori_summary': [], "rendu_summary": []}

    for index, row in df.iterrows():

        source = row[0]

        ori_summary = row[1]

        msg = f'Provide a concise summary of the following passage, covering the core pieces of information described in english. {source}'

        con = rendu(msg)

        try:

            con = con['choices'][0]['message']['content']

        except IndexError:

            con = ''

        print(index, con[:100])

        data["source"].append(source)

        data["ori_summary"].append(ori_summary)

        data["rendu_summary"].append(con)

    df2 = pd.DataFrame(data)

    df2.to_csv('output.csv', index=False)

上面的过程可能很漫长，建议放到服务器后台进行，后台命令参考，如果不打算用服务器跑，这一步忽略。
```
nohup python hallucination_test.py > nohup.out 2>&1 &
```

下载依赖的模型，参考代码如下（如果已配置梯子，这一步可以忽略）

import os

os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

from huggingface_hub import snapshot_download

snapshot_download(

  repo_id="microsoft/OmniParser-v2.0",

  # repo_type="dataset",  # 下载数据集时才需要

  local_dir="../hallucination_evaluation_model/google/flan-t5-base",

  # proxies={"https": "http://localhost:7890"},

  # max_workers=8,

  etag_timeout=180

)

使用大模型地址的Model Card部分提到的计算方式进行计算，这也是为什么第一步让大家熟读Model Card。我用的是Pipline方式计算的。计算也很耗时，建议放在服务器进行。
分数转化为排行榜支持的形式，首先我们看一下排行榜 https://huggingface.co/spaces/vectara/leaderboard ，首列分数越低代表该大模型致幻程度越小，说明模型越好。那四列的意思分别为：
- 幻觉率：幻觉评分低于0.5的摘要百分比
- 事实一致率：幻觉率的补充，以百分比表示。
- 回答率：非空摘要的百分比。这要么是模型拒绝生成响应，要么是由于各种原因抛出错误。（例如，模型认为文档包含不恰当的内容）
- 平均摘要长度：生成的摘要的平均字数

转换分数脚本参考

import pandas as pd

result = {

    'Hallucination Rate': 0,

    'Factual Consistency Rate': 0,

    'Answer Rate': 0,

    'Average Summary Length': 0

}

with open('result.json', 'r') as f:

    con = eval(f.read())

hr = fcr = ar = 0

df = pd.read_csv('hallu_rendu/rendu_summary.csv')

asl = []

for i in df['rendu_summary'].tolist():

    j = i.split(' ')

    sm = 0

    sm += len(j)

    asl.append(sm)

for i in con:

    if i < 0.5:

        hr += 1

    if not i:

        ar += 1

hr = round(hr/len(con), 2)

fcr = 1-hr

hr = str(hr * 100) + '%'

fcr = str(fcr * 100) + '%'

ar = str((len(con) - ar) / len(con) * 100) + '%'

asl = str(sum(asl)/len(asl))

result['Hallucination Rate'] = hr

result['Factual Consistency Rate'] = fcr

result['Answer Rate'] = ar

result['Average Summary Length'] = asl

print(result)

聊一聊我们的模型评测结果

　　我们的rd模型在评测中各项评分如下：{'Hallucination Rate': '16.0%', 'Factual Consistency Rate': '84.0%', 'Answer Rate': '100.0%', 'Average Summary Length': '102.68190854870775'}

　　这个结果算不上好，但至少上榜了。

　　你们的呢，评论区聊一聊

大模型评测之幻觉检测hallucination_evaluation_model的更多相关文章

R2CNN模型——用于文本目标检测的模型
引言 R2CNN全称Rotational Region CNN,是一个针对斜框文本检测的CNN模型,原型是Faster R-CNN,paper中的模型主要针对文本检测,调整后也可用于航拍图像的检测中去 ...
AI大模型学习了解
# 百度文心上线时间:2019年3月官方介绍:https://wenxin.baidu.com/ 发布地点: 参考资料: 2600亿!全球最大中文单体模型鹏城-百度·文心发布 # 华为盘古上线时 ...
无插件的大模型浏览器Autodesk Viewer开发培训-武汉-2014年8月28日 9:00 – 12:00
武汉附近的同学们有福了,这是全球第一次关于Autodesk viewer的教室培训. :) 你可能已经在各种场合听过或看过Autodesk最新推出的大模型浏览器,这是无需插件的浏览器模型,支持几十种数 ...
PowerDesigner 学习：十大模型及五大分类
个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...
PowerDesigner 15学习笔记：十大模型及五大分类
个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...
WPF 3D 平移模型+动画（桥梁检测系统）
原文:WPF 3D 平移模型+动画(桥梁检测系统) 关于WPF 3D,网上有很多旋转的例子,但是关于平移的例子并不是太多.本文并非WPF 3D扫盲篇,因此需要对WPF 3D有一定了解,至少知道View ...
华为高级研究员谢凌曦：下一代AI将走向何方？盘古大模型探路之旅
摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...
文心大模型api使用
文心大模型api使用首先,我们要获取硅谷社区的连个key 复制两个api备用获取Access Token 获取access_token示例代码之后就会输出作文创作作文创作:作文创作接口基于文 ...
千亿参数开源大模型 BLOOM 背后的技术
假设你现在有了数据,也搞到了预算,一切就绪,准备开始训练一个大模型,一显身手了,"一朝看尽长安花"似乎近在眼前 -- 且慢!训练可不仅仅像这两个字的发音那么简单,看看 BLOOM ...
DeepSpeed Chat: 一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍 1. 概述近日来,ChatGPT及类似模型引发了人工智能(AI)领域的一场风潮. 这场风潮对数字世 ...

随机推荐

Qt编写的项目作品31-PDF阅读器(雨田哥作品)
一.功能特点仿WPS界面. 预览PDF文件. 支持PDF预览放大.缩小. 支持目录预览查看. 支持目录点击跳转页查看. 支持页数指定跳转. 支持上一页.下一页.首页.尾页跳转. 支持鼠标拖拽滑动预览 ...
VisualSFM的配置与使用 & MeshLab的网格生成与纹理添加
VisualSFM的配置与使用 & MeshLab的网格生成与纹理添加翻译搜索复制
[转]奇异值分解（SVD）方法求解最小二乘问题的原理
原文链接:奇异值分解(SVD)方法求解最小二乘问题的原理翻译搜索复制
JS-正则表达式（基本语法、test、exec、\d\D\w\W\s\S .）
二,正则表达式 1,什么是正则表达式是一种规范,对字符串格式进行验证的规范不用自己写,常用的正则表达式,网上都有,只要会使用就可以 2,定义方法字面量 var reg = /正则表达式/ 常用方 ...
即时通讯技术文集（第41期）：直播技术合集(Part1) [共12篇]
为了更好地分类阅读 52im.net 总计1000多篇精编文章,我将在每周三推送新的一期技术文集,本次是第41 期. [- 1 -] 移动端实时音视频直播技术详解(一):开篇 [链接] http:// ...
开源即时通讯IM框架 MobileIMSDK v6.4 发布
一.更新内容简介本次更新为次要版本更新,进行了若干优化(更新历史详见:码云 Release Notes.Github Release Notes).MobileIMSDK 可能是市面上唯一同时支持 ...
vue3-openlayers基础知识简介
vue3-openlayers基础知识简介 OpenLayers 3 Primer openlayers6:入门基础(一) openlayers 入门教程一.基础概念介绍地图(Map) OpenL ...
关于JetbrainsIDE升级到2024.2版本之后jetbra/ja-netfaliter激活失效不断弹窗的解决方案
1. 原因: jetbra/ja-netfaliter激活的原理是拦截并重定向与Jetbrains账号验证服务器的数据. 2024.2后jetbrains新的安装程序自带了三个区域语言包,其中若选择中 ...
前端学习openLayers配合vue3（面的绘制，至少三个点）
我们学习了点和线的绘制,当然我们也可以绘制一个面关键代码,需要注意的一点就是面的绘制需要三维数组,线的绘制是个二维数组 const polygonLayer = new VectorLayer({ ...
【Java RPC】使用netty手写一个RPC框架结合新特性虚拟线程
[手写RPC框架]如何使用netty手写一个RPC框架结合新特性虚拟线程什么是RPC框架 RPC(Remote Procedure Call)远程过程调用,是一种通过网络从远程计算机程序上请求服 ...

大模型评测之幻觉检测hallucination_evaluation_model