近来,LLM 已深入人心,大有燎原之势。但在我们将其应用于千行百业之前,理解其在不同场景下的安全性和潜在风险显得尤为重要。为此,美国白宫发布了关于安全、可靠、可信的人工智能的行政命令; 欧盟人工智能法案也对高风险人工智能系统的设立了专门的强制性要求。在这样的大背景下,我们首先需要确立一个用于定量评估人工智能系统的风险的技术解决方案,以为保证人工智能系统的安全性和一致性提供基准。

为了因应这一需求,我们 安全学习实验室 于 2023 年提出了 DecodingTrust 平台,这是第一个全面且统一的 LLM 可信度评估平台。( 该工作还荣获了 NeurIPS 2023 的 杰出论文奖 )

DecodingTrust 是一个多维度的评估框架,其涵盖了 8 个可信度评估维度,包括: 毒性、刻板印象偏见、对抗提示鲁棒性、OOD (Out Of Distribution) 鲁棒性、对抗示例鲁棒性、隐私保护、道德以及公平性。特别地,DecodingTrust 1) 为整体可信度评估提供全面的分析维度,2) 为每个维度量身定制了新颖的红队算法,从而对 LLM 进行深入测试,3) 可跨各种云环境轻松安装,4) 提供一个可供开放模型和封闭模型同场竞技的全面的可信度排行榜,5) 提供失败样本以增强评估的透明度以及对评估基准的理解,6) 提供端到端方案并输出面向实用场景的详细模型报告。

今天,我们很高兴向社区发布新的 LLM 安全排行榜,该排行榜是基于 HF 排行榜模板 开发的,其专注于对 LLM 进行安全性评估。

红队评估

DecodingTrust 为每个评估维度都提供了数种新颖的红队方法以对模型进行压力测试。有关测试指标的详细信息可参见我们论文中的 图 3

针对毒性这一维度,我们针对其设计了优化算法并使用精心设计的提示以使生成模型生成具有挑战性的用户提示。我们还设计了 33 个具有挑战性的系统提示,以在不同场景下 (如角色扮演、任务重规划以及程序式响应等) 对 LLM 进行评估。然后,我们利用目标 LLM 的 API 来评估其在这些具有挑战性的提示下生成的内容的毒性分。

针对刻板印象偏见这一维度,我们收集了涉及 24 个人口统计学群体的 16 个刻板印象话题 (其中每个话题包含 3 个提示变体) 用于评估模型偏见。我们对每个模型提示 5 次,并取其平均值作为模型偏见分。

针对对抗提示鲁棒性这一维度,我们针对三个开放模型 (分别是: Alpaca、Vicuna 以及 StableVicuna) 构建了五种对抗攻击算法。我们使用通过攻击开放模型而生成的对抗性数据来评估不同模型在五种不同任务上的鲁棒性。

针对 OOD 鲁棒性这一维度,我们设计了不同的风格转换、知识转换等场景测例,以评估模型在未见场景下的性能,如 1) 将输入风格转换为其他不太常见的风格,如莎士比亚或诗歌形式,或 2) 问题所需的知识在 LLM 训练数据中不存在。

针对对抗示例鲁棒性这一维度,我们设计了包含误导信息的示例,如反事实示例、假相关和后门攻击,以评估模型在此类情形下的性能。

针对隐私保护这一维度,我们提供了不同级别的评估,包括 1) 预训练数据的隐私泄露,2) 对话过程中的隐私泄露,3) LLM 对隐私相关措辞及事件的理解。特别地,对于 1) 和 2),我们设计了不同的方法来进行隐私攻击。例如,我们提供不同格式的提示以诱导 LLM 吐露电子邮件地址及信用卡号等敏感信息。

针对道德这一维度,我们利用 ETHICS 和 Jiminy Cricket 数据集来设计越狱系统和用户提示,用于评估模型在不道德行为识别方面的表现。

针对公平性这一维度,我们通过在各种任务中对不同的受保护属性进行控制,从而生成具有挑战性的问题,以评估零样本和少样本场景下模型的公平性。

来自于我们论文的重要发现

总的来说,我们发现:

  1. GPT-4 比 GPT-3.5 更容易受到攻击;
  2. 没有一个 LLM 在所有可信度维度上全面领先;
  3. 需要在不同可信度维度之间进行折衷;
  4. LLM 隐私保护能力受措辞的影响较大。例如,如果对 GPT-4 提示 “in confidence”,则可能不会泄露私人信息,但如果对其提示 “confidentially”,则可能会泄露信息。
  5. 多个维度的结果都表明,LLM 很容易受对抗性或误导性的提示或指令的影响。

如何提交模型以供评估

首先,将模型权重转换为 safetensors 格式,这是一种存储权重的新格式,用它加载和使用权重会更安全、更快捷。另外,在排行榜主表中,我们能够直接显示 safetensors 模型的参数量!

其次,确保你的模型和分词器可以通过 AutoXXX 类加载,如下:

from transformers import AutoConfig, AutoModel, AutoTokenizer
config = AutoConfig.from_pretrained("your model name")
model = AutoModel.from_pretrained("your model name")
tokenizer = AutoTokenizer.from_pretrained("your model name")

如果上述步骤失败,请根据报错消息对模型进行调试,成功后再提交。不然你的模型可能上传不正确。

注意:

  • 确保你的模型是公开的!
  • 我们尚不支持需要 use_remote_code=True 的模型。但我们正在努力,敬请期待!

最后,你需要在排行榜的 Submit here! 选项卡中提交你的模型以供评估!

如何引用我们的工作

如果你发现这个评估基准对你有用,请考虑引用我们的工作,格式如下:

@article{wang2023decodingtrust,
title={DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models},
author={Wang, Boxin and Chen, Weixin and Pei, Hengzhi and Xie, Chulin and Kang, Mintong and Zhang, Chenhui and Xu, Chejian and Xiong, Zidi and Dutta, Ritik and Schaeffer, Rylan and others},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2023}
}

英文原文: https://hf.co/blog/leaderboard-decodingtrust

原文作者: Chenhui Zhang,Chulin Xie,Mintong Kang,Chejian Xu,Bo Li

译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。

来自 AI Secure 实验室的 LLM 安全排行榜简介的更多相关文章

  1. 来自AI的Tips——情景智能

    来自AI的Tips--情景智能   上一次我们介绍了华为快服务智慧平台是什么,今天我们来侃一侃平台最有代表性的一个流量入口--情景智能(AI Tips).   首先情景智能在哪呢?大家可以拿出自己的华 ...

  2. 【转载】 “强化学习之父”萨顿:预测学习马上要火,AI将帮我们理解人类意识

    原文地址: https://yq.aliyun.com/articles/400366 本文来自AI新媒体量子位(QbitAI)     ------------------------------- ...

  3. 一张图看懂AI、机器学习和深度学习的区别

    AI(人工智能)是未来,是科幻小说,是我们日常生活的一部分.所有论断都是正确的,只是要看你所谈到的AI到底是什么. 例如,当谷歌DeepMind开发的AlphaGo程序打败韩国职业围棋高手Lee Se ...

  4. 从马文到AlphaGo AI走过了怎样的70年?

    (原标题:从马文·明斯基到AlphaGo,人工智能走过了怎样的70年?) [编者按]从19世纪中叶人工智能的萌芽时期,到现今人工智能的重生,从马文·明斯基到AlphaGo,历史上发生了哪些激动人心的故 ...

  5. 【将门创投】AI 往期技术分享

    计算机视觉 1. 嘉宾:商汤科技CEO 徐立 文章回顾:计算机视觉的完整链条,从成像到早期视觉再到识别理解 2. 嘉宾:格灵深瞳CTO 赵勇 文章回顾:计算机视觉在安防.交通.机器人.无人车等领域的应 ...

  6. 五个常见 AI 开发库

    上一篇文章已经写过了,人工智能的发展不可谓不曲折,三起两落,不同的历史阶段,主流的研究方法不一样,开始时的 if-else 结构,简单的逻辑判断字符串匹配,到后期的穷举计算等,慢慢发展到现在的大数据与 ...

  7. Hugging Face发布diffuser模型AI绘画库初尝鲜!

    作者:韩信子@ShowMeAI 深度学习实战系列:https://www.showmeai.tech/tutorials/42 TensorFlow 实战系列:https://www.showmeai ...

  8. 你给文字描述,AI艺术作画,精美无比!附源码,快来试试!

    作者:韩信子@ShowMeAI 深度学习实战系列:https://www.showmeai.tech/tutorials/42 TensorFlow 实战系列:https://www.showmeai ...

  9. 华为AI应用创新大赛即将开启!公开课已备好!

    为鼓励开发者创新,挖掘前沿创新能力的应用及服务,帮开发者打造爆款应用的同时丰富终端消费者的用户体验,由设立10亿激励基金耀星计划扶持的华为创新竞赛平台即将开启. 竞赛平台将滚动推出AI.HAG.AR. ...

  10. #2020征文-开发板# 用鸿蒙开发AI应用(一)硬件篇

    目录: 前言 开发板简介 产品特色及功能 产品参数 各个主板功能简介 Hi3516DV300 芯片手册 前言鸿蒙2.0的系统刚开源出来,华为志在打造1+8+N万物互联的全场景智慧生活,不仅是国产操作系 ...

随机推荐

  1. 深度学习实践篇[17]:模型压缩技术、模型蒸馏算法:Patient-KD、DistilBERT、DynaBERT、TinyBERT

    深度学习实践篇[17]:模型压缩技术.模型蒸馏算法:Patient-KD.DistilBERT.DynaBERT.TinyBERT 1.模型压缩概述 1.2模型压缩原有 理论上来说,深度神经网络模型越 ...

  2. C/C++ 提权与强制卸载DLL

    权限提升 #include <Windows.h> #include <stdio.h> BOOL SetPrivilege(LPCTSTR lpszPrivilege, BO ...

  3. sed文本处理工具常见用法

    sed的全称是stream editor, 表示它是一个流编译器.可以处理文本内容和终端命令的流标准输出,对文本做查找,替换,插入,删除操作. 它是把文件中的内容逐行copy到缓冲区,然后在缓冲区中进 ...

  4. Git企业开发控制理论和实操-从入门到深入(七)|企业级开发模型

    前言 那么这里博主先安利一些干货满满的专栏了! 首先是博主的高质量博客的汇总,这个专栏里面的博客,都是博主最最用心写的一部分,干货满满,希望对大家有帮助. 高质量博客汇总 然后就是博主最近最花时间的一 ...

  5. 学生成绩管理系统|Python小应用练习

    题目要求 实现学生成绩管理系统 输入学生成绩信息序列,获得成绩从高到低.从低到高.按某一门成绩的排列,相同成绩都按先录入排列在前的规则处理. 数据如下:(数据规则:学生姓名 高数成绩 英语成绩 大物成 ...

  6. curl接口调用

    CURL 是一个利用URL语法规定来传输文件和数据的工具,支持很多协议,如HTTP.FTP.TELNET等.最爽的是,PHP也支持 CURL 库.使用PHP的CURL 库可以简单和有效地去抓网页.你只 ...

  7. 尴尬:在Excel中为指定数据插入饼图失败

    本来是非常非常简单的一个需求,即便不会,随便百度下也都有说明. 可自己却在一次紧急工作中因此耽误了时间,需求是需要插入一个饼图但因操作错误一直无法正确显示饼图数据,非常尴尬,干脆记录下这一刻. 尴尬1 ...

  8. .NET 团队公布.NET 9开发目标 并发布.NET9的首个预览版

    在一篇博文中我们对 .NET 9 的愿景[1]: .NET团队概述了.NET 9的开发目标和最终愿景,涵盖两大重点领域:云原生和智能应用程序开发.它在继.NET 8之后,继续强化对云原生应用和性能的支 ...

  9. Centos7部署django+uwsgi+nginx 转载: https://www.cnblogs.com/wztshine/p/16172154.html

    Centos7部署django+uwsgi+nginx   Django + uwsgi + nginx on Centos7 wsgi 介绍 本小节来自 廖雪峰 wsgi 一文 一个Web应用的本质 ...

  10. JS axios cancelToken 是如何实现取消请求?稍有啰嗦但超有耐心的 axios 源码分析

    壹 ❀ 引 axios,一个基于promise且对ajax进行了二次封装的http库,在提供了与promise类似的API便捷写法同时,它还有一大特点,便是支持取消http请求.当然取消请求并不是ax ...