解密Prompt系列13. LLM Agent-指令微调方案: Toolformer & Gorilla
上一章我们介绍了基于Prompt范式的工具调用方案,这一章介绍基于模型微调,支持任意多工具组合调用,复杂调用的方案。多工具调用核心需要解决3个问题,在哪个位置进行工具调用(where), 从众多工具中选择哪一个(Which), 工具的输入是什么(What)。Where + Which + What,我称之为3W原则,3H它兄弟哈哈哈哈~

其实如何教大模型使用工具,和教人类使用工具没啥区别。就像上周末我想给我妈买的可以防弹,超重的岩板餐桌按个滑轮需要使用电钻,那我学习使用电钻的途径无非有三种
- 基于历史经验:我之前都是手动的没用过电动的,我凭借自信直接上手结果拧歪了......对应到LLM其实就是本章要提到的工具微调,我们让模型先学习在在不同的场景使用什么工具,如何使用,再利用大模型的迁移泛化能力泛化到更多的场景。
- 从工具说明书中学习:我去翻了翻说明书,奈何写的太抽象没看懂......对应到LLM简单版的就是上一章的zero-shot prompt方案,告诉大模型工具的使用场景和用法;升级版就是之后会提到的优化方案,我们可以动态召回工具的完整说明书和使用范例作为上文输入模型
- 通过观察他人使用工具来学习:最终我打开小红书看短视频学习了下,一点就通,于是我拥有了可丝滑移动的防弹餐桌!对应到LLM简单版就是上一章介绍的few-shot prompt方案,我们让LLM看到在其他场景它是如何使用工具的;升级版就是之后会提到的动态few-shot prompt的方案。
下面我们看下通过微调为模型注入工具使用经验的两个方案:Toolformer和Gorilla
Toolformer
- TALM: Tool Augmented Language Models
- Toolformer: Language Models Can Teach Themselves to Use Tools
- 填充式工具使用 + InContext制造自监督样本
Toolformer是工具调用领域的前辈,使用LM监督微调得到可以进行Inline工具调用的模型。解码时,模型会在恰当的位置生成API调用的请求,并中止解码,去调用API得到返回值,把返回值拼接到"->"字符之后,再继续模型解码,如下

Toolformer的创新主要在API调用的样本构造,因此我们先来看下样本构造的部分
样本
Toolformer单一API的样本构造主要包含以下3个步骤
- Sampling API
以QA API为例,作者会先编写几个样本作为In-Context,得到以下的FewShot指令样本

然后针对新的长度为N的输入文本,作者会计算每个位置得到<API>前缀的条件解码概率,并保留超过阈值的TopK个最优可能出现<API>的位置。然后每个位置,基于上文,让模型随机解码m次生成m个候选的API调用请求。这样我们就得到了候选样本集,每一段文本,最多有K个可能进行工具调用的位置,且每个位置有至多m个候选请求{c1,...cm}。
- Executing API Calls
执行以上得到的候选请求,每个请求得到一个对应的返回值{r1,....rm}。 可以是计算器的结果,维基百科的搜索返回等等
- Filtering API Calls
最后是过滤筛选,原理是好的工具调用样本,应该会让工具调用位置后面的文本解码概率提高,Perplexity降低。因此作者计算了在工具调用位置之后,所有token的加权条件解码概率。

以上加权的权重计算如下,离工具调用位置越远权重越小

条件解码概率的条件Z,分别是[工具调用+返回值],[工具调用+无返回值],[无工具调用],这三者中Loss较小的一个,过滤方案是[工具调用+工具返回值]的Loss降幅超过阈值,则保留该样本
整体量级上,1个API生成了25K左右的样本用于微调,样本长度1024
微调
使用以上样本生成方案得到多API调用的样本集混合后得到增强训练样本。样本的构建方式是在原始文本中直接插入API调用的语句\(x_{1:i-1},e(c_i,r_i),x_{i:n}\),如下
The Nile has an approximate length of QA(What is the approximate length of the Nile?)->6,853 km 6,853 kilometers, the White Nile being its main source
这样通过微调,模型会学习到在什么位置使用什么样的工具,以及工具的请求输入。同时和解码的格式保持一致,后文会依赖API调用结果进行解码。微调使用了GPT-J模型,Batch=128, lr=1e-5,warmup=10%,训练了2K step,常规的LM Loss.
总结
Toolformer的创新主要在使用模型的Few-shot理解能力,使用少量的人工标注样本制造大量的自监督样本。这样Tooformer理论上可以支持任意的API工具。但Toolformer有一些局限性
- 工具独立:论文中每个API调用的样本是独立构造的,工具之间没有交互,且同一工具的多次调用之间也是独立,不依赖上文的调用返回。
- 常规解码:没有引入思维链推理,限制了最终效果
Gorilla
- HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace
- TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs
- Gorilla:Large Language Model Connected with Massive APIs
- https://github.com/ShishirPatil/gorilla
Gorilla在HuggingGPT,TaskMatrix.AI这两个API调用的前辈的基础上,加入了指令微调来提升API调用效果。Gorilla支持TorchHub,TensorflowHub,Huggingface总共1645个API,且可以泛化到新的API上。

样本
Gorilla使用Self-Instruct来构建指令样本,用的是GPT4模型。构建方案是以上3个API Hub, 每个Hub各人工编写6个指令样本。每一轮随机从6个样本中采样3个作为Few-Shot,并通过指令让GPT4随机生成10个真实世界的使用case,总共生成16450个指令样本,生成的指令样本如下

同时Gorilla加入了Retriever-Aware,也就是在以上的指令样本中,指令后面会拼接上API的使用说明:"Use this API documentation for reference: <retrieved_API_doc_JSON>"
这样在推理阶段,会先根据用户的指令召回最相关、最新的API使用说明。降低模型幻觉的同时,使得模型有更好的泛化性,可以适应全新的API接口,或者已有API接口的参数变化。
微调&推理
微调的部分比较常规就是在LLama-7B模型上,使用以下参数在8*A100(40G)进行指令微调。

在推理阶段会同样加入API Retriever根据用户的指令召回最相关的API使用说明,和用户输入拼接,喂进模型推理。召回方案作者尝试了BM25和GPT的Embedding,不过不同召回方案的效果和API本身相关,没有谁一定更好这一说。
效果上微调后7B的LLama模型使用GPT Embedding召回工具说明,在工具调用上的准确率可以显著超越GPT3.5使用Prompt方案的调用效果

总结
对比上一章基于Prompt的方案Self Ask,ReAct和这一章基于微调的方案Toolformer,Gorilla,指令微调的方案有以下优势
- planning效果更好:微调方案比Prompt方案在复杂问题规划上效果更好,尤其适合本身In-Context能力有限的小模型
- 工具调用准确率更高:针对复杂工具调用的准确率更高
- 不受模型迭代影响:GPT3.5->GPT4的升级,让不少基于Prompt指令的应用们需要集体进行prompt调整,因为模型指令变了.......以及不同模型之间的指令或有不同。但微调方案不受这一点影响,因为指令微调本身就是对齐的过程,因此更robust
缺点自然是没有开箱即用的Prompt方案灵活,所以不妨用prompt方案来进行前期测试,后期用微调来提升效果。
但其实不论是prompt方案还是微调方案,其实都是LLM Agent应用中的工具调用规划这一个子模块,要真正搭建可以落地的大模型应用,需要更系统的整体设计,这块我们放在下一章说~
想看更全的大模型相关论文梳理·微调及预训练数据和框架·AIGC应用,移步Github >> DecryPrompt
解密Prompt系列13. LLM Agent-指令微调方案: Toolformer & Gorilla的更多相关文章
- 解密Prompt系列6. lora指令微调扣细节-请冷静,1个小时真不够~
上一章介绍了如何基于APE+SELF自动化构建指令微调样本.这一章咱就把微调跑起来,主要介绍以Lora为首的低参数微调原理,环境配置,微调代码,以及大模型训练中显存和耗时优化的相关技术细节 标题这样写 ...
- 解密prompt系列5. APE+SELF=自动化指令集构建代码实现
上一章我们介绍了不同的指令微调方案, 这一章我们介绍如何降低指令数据集的人工标注成本!这样每个人都可以构建自己的专属指令集, 哈哈当然我也在造数据集进行时~ 介绍两种方案SELF Instruct和A ...
- 解密Prompt系列3. 冻结LM微调Prompt: Prefix-Tuning & Prompt-Tuning & P-Tuning
这一章我们介绍在下游任务微调中固定LM参数,只微调Prompt的相关模型.这类模型的优势很直观就是微调的参数量小,能大幅降低LLM的微调参数量,是轻量级的微调替代品.和前两章微调LM和全部冻结的pro ...
- 解密Prompt系列2. 冻结Prompt微调LM: T5 & PET & LM-BFF
这一章我们介绍固定prompt微调LM的相关模型,他们的特点都是针对不同的下游任务设计不同的prompt模板,在微调过程中固定模板对预训练模型进行微调.以下按时间顺序介绍,支持任意NLP任务的T5,针 ...
- 解密Prompt系列4. 升级Instruction Tuning:Flan/T0/InstructGPT/TKInstruct
这一章我们聊聊指令微调,指令微调和前3章介绍的prompt有什么关系呢?哈哈只要你细品,你就会发现大家对prompt和instruction的定义存在些出入,部分认为instruction是promp ...
- .NET Core加解密实战系列之——使用BouncyCastle制作p12(.pfx)数字证书
简介 加解密现状,编写此系列文章的背景: 需要考虑系统环境兼容性问题(Linux.Windows) 语言互通问题(如C#.Java等)(加解密本质上没有语言之分,所以原则上不存在互通性问题) 网上资料 ...
- Java 加解密技术系列文章
Java 加解密技术系列之 总结 Java 加解密技术系列之 DH Java 加解密技术系列之 RSA Java 加解密技术系列之 PBE Java 加解密技术系列之 AES Java 加解密技术系列 ...
- Java 集合系列 13 WeakHashMap
java 集合系列目录: Java 集合系列 01 总体框架 Java 集合系列 02 Collection架构 Java 集合系列 03 ArrayList详细介绍(源码解析)和使用示例 Java ...
- 【Xamarin开发 Android 系列 13】 应用打包部署
原文:[Xamarin开发 Android 系列 13] 应用打包部署 开始倒叙咯................ 先更新大宝部署吧,这个章节比较的Easy,童鞋们不用费脑筋.点解?从界面上填写几个参 ...
- ASP.NET MVC+EF框架+EasyUI实现权限管理系列(13)-权限设计
原文:ASP.NET MVC+EF框架+EasyUI实现权限管理系列(13)-权限设计 ASP.NET MVC+EF框架+EasyUI实现权限管系列 (开篇) (1):框架搭建 (2):数据 ...
随机推荐
- 认识 CPU 底层原理(2)——逻辑门
本文为B站UP主硬件茶谈制作的系列科普<[硬件科普]带你认识CPU>系列的学习笔记,仅作个人学习记录使用,如有侵权,请联系博主删除 上一篇文章我们从最基本的粒子的角度认识了组成CPU的最基 ...
- 计蒜客蓝桥杯省赛模拟G
题目 一天蒜头君得到 n 个字符串 si,每个字符串的长度都不超过 1010. 蒜头君在想,在这 n 个字符串中,以 si 为后缀的字符串有多少个呢? 输入格式 第一行输入一个整数 n. 接下来 n ...
- 选择结构do...while语句
// do..while语句 #include<stdio.h> int main() { int a = 0; do { a++; printf("HelloWorld\n&q ...
- 深度学习基础入门篇[8]::计算机视觉与卷积神经网络、卷积模型CNN综述、池化讲解、CNN参数计算
深度学习基础入门篇[8]::计算机视觉与卷积神经网络.卷积模型CNN综述.池化讲解.CNN参数计算 1.计算机视觉与卷积神经网络 1.1计算机视觉综述 计算机视觉作为一门让机器学会如何去"看 ...
- 计算机网络 VRRP和DHCP
目录 一.vrrp概念 二.vrrp工作过程 三.vrrp优先级 四.vrrp实验 五.DHCP概念 六.DHCP工作过程 七.DHCP实验 一.vrrp概念 概念:称虚拟路由器冗余协议,当网关路由器 ...
- C++温故补缺(二十一):杂项补充2
杂记2 explicit 在 C++ 中,explicit 是一个关键字,用于修饰类的构造函数,其作用是禁止编译器将一个参数构造函数用于隐式类型转换.具体来说,当一个构造函数被 explicit 修饰 ...
- App性能测试之SoloPi
SoloPi简介 SoloPi是蚂蚁金服开发的一款无线化.非侵入.免Root的Android专项测试工具.直接操控安卓系统的手机或智能设备,即可完成自动化的功能.性能.兼容性.以及稳定性测试等工作,降 ...
- ASP.NET Core 6框架揭秘实例演示[37]:重定向的N种实现方式
在HTTP的语义中,重定向一般指的是服务端通过返回一个状态码为3XX的响应促使客户端像另一个地址再次发起请求,本章将此称为"客户端重定向".既然有客户端重定向,自然就有服务端重定向 ...
- 【后端面经】MySQL主键、唯一索引、联合索引的区别和作用
目录 0. 简介 1. 主键 2. 唯一索引 3. 联合索引 4. 索引对数据库操作的影响 5. 其他索引 5.1 普通索引 5.2 全文索引 5.3 前缀索引 6. 总结 7. 参考资料 0. 简介 ...
- RLHF技术在智能金融中的应用:提高金融智能化和自动化水平”
目录 引言 随着人工智能技术的不断发展和普及,金融智能化和自动化水平也得到了显著提高.在这个时代,RLHF(Reinforcement Learning with Human Feedback)技术已 ...