1.背景

本qiang~关注到OpenAI两周前发布的轻量级多代理框架Swarm,因此想要深入了解了一下,运行了官方提供的例子,整理并总结一些心得体会~

源码非常简单,各位看官们可以小读一下,本文采用gpt-4o-mini进行验证,如果想免费使用gpt-4o-mini,可私信沟通。

Ps: 发布之后,便在X引起了Swarm涉嫌抄袭,但吃瓜的我还是关注技术内部本身。

2.简介

Swarm项目是一个轻量级multi-agent编排框架,当前主要是为了实验及教学,而非用于生产。

Swarm专注于使agent协调和运行变得轻量级、高度可控且易于测试。

有两个主要抽象模块:Agent和handoffs(切换),Agent封装了instructions和tools,且可以随时选择将对话移交给另一个代理。

3. 适用场景

适用于大量的独立功能和指令难以整合到一个prompt的场景,而是将独立功能和指令通过agent, functions, tools等方式进行链接。

4. Swarm核心模块

4.1 Swarm.run()

类似于openai的chat completions api中的create()函数,接收并返回messages,并在调用之间不保存任何状态。注意,该方法也处理Agent函数执行、切换、上下文变量引用,且可以在返回最终输出前进行多轮对话。

其核心实现了如下循环:

(1) 从当前Agent调用模型返回结果

(2) 执行工具调用并且保存结果

(3) 必要时切换代理

(4) 必要时更新上下文变量

(5) 如果没有新的函数调用,则返回

该方法执行完毕后,会返回一个Response,包含所有相关的更新状态,包括新的messages, 最后被调用的agent以及最新的上下文变量context_variables。

4.2 Agents

Agent简单封装了一组instructions和functions,且具有将执行移交给另一个agent的能力。这些instructions和functions可用于表示非常具体的工作流程或步骤。

Instructions将被直接转化为一个对话的system提示,任何时候,只会存在活跃agent的instructions。

instructions可以是普通的字符串,也可以是返回字符串的函数,该函数可以选择一个context_variables参数,进而传入到swarm.run()中。

Swarm的Agent可以直接调用python函数,通常function应返回一个str,但也可以是一个Agent,如果返回Agent的话,则将执行转移到该Agent。如果Agent的函数调用出现错误,错误响应会添加到聊天中,以便Agent可以正常恢复。如果Agent调用多个函数,他们将按顺序进行。

4.3 切换Agent及更新上下文变量

一个agent可以通过在function中返回它来将其移交给另一个代理。还可以通过返回更完整的Result对象来更新context_variables

5. 实战

本次实战主要运行项目自带的例子airline。这个例子能够很好地说明Swarm的运行机理。

5.1 Agent之间的整体交互流程

交互步骤如下:

  1. 首先经过意图识别Agent,判断是处理航班变更还是行李丢失,并分别通过transfer_to_flight_modification, transfer_to_lost_baggage切换到对应的Agent
  2. 如果是航班变更,则进一步判断是航班取消,还是航班更换,如果是航班取消,通过transfer_to_flight_cancel切换到”航班取消Agent”进行处理,该Agent支持退款、兑换飞行积分、向上级反馈、问题已解决、切换到意图识别Agent等5个方法;如果是航班更换,通过transfer_to_flight_change切换到”航班更换Agent”,该Agent支持更换有效性验证、更换成功、向上级反馈、问题已解决、切换到意图识别Agent等5个方法。
  3. 如果是行李的相关问题,则切换至”行李丢失Agent”,该Agent包含行李搜寻、向上级反馈、问题已解决、切换到意图识别Agent等4个方法

5.2 实战效果

其中User是我的输出,[2024...]是打印的日志,Triage Agent、Flight Modification Agent、Flight cancel traversal是对应的Agent或方法​调用大模型后返回的结果。

Starting Swarm CLI ��

User: 我想要退票

[2024-10-22 09:38:14] Ending turn.

Triage Agent: 请问您能提供一下您的航班号以及您希望退票的原因吗?

User: 航班号是1919,我的时间有些冲突了

[2024-10-22 09:38:48] Processing tool call: transfer_to_flight_modification with arguments {}

[2024-10-22 09:38:49] Processing tool call: transfer_to_flight_cancel with arguments {}

[2024-10-22 09:38:50] Ending turn.

Triage Agent: transfer_to_flight_modification()

Flight Modification Agent: transfer_to_flight_cancel()

Flight cancel traversal: 您提到的航班号是1919。请确认您是否确实是要取消这个航班。如果是的话,我将继续进行处理。

User: 是的

[2024-10-22 09:38:57] Ending turn.

Flight cancel traversal: 请问您是希望申请退款还是希望获得航班积分?

User: 退款吧

[2024-10-22 09:39:05] Processing tool call: initiate_refund with arguments {}

[2024-10-22 09:39:06] Ending turn.

Flight cancel traversal: initiate_refund()

Flight cancel traversal: 您的退款请求已被处理,退款将在3-5个工作日内完成。请您耐心等待。请问您还有其他问题吗?

User: 没有了,谢谢

[2024-10-22 09:39:16] Processing tool call: case_resolved with arguments {}

[2024-10-22 09:39:20] Ending turn.

Flight cancel traversal: case_resolved()

Flight cancel traversal: 感谢您的联系!如果将来有任何问题,请随时与我们联系。祝您有美好的一天!

User:

6.总结

一句话足矣~

本文主要是OpenAI开源multi-agent框架swarm进行介绍,包括其核心组件Agent, instructions,functions,多个Agent之间如何进行切换,以及针对其中的examples进行验证,框架及源码非常简单,看官们可以亲自尝试一下。

Multi-agent的适用场景非常丰富,比如客服、工作流处理等

如果想免费获取使用openai的看官,可私信沟通。

7.参考

(1) Swarm仓库: https://github.com/openai/swarm

LLM应用实战: OpenAI多代理新作-Swarm的更多相关文章

  1. Puppet单机实战之Nginx代理Tomcat

    author:JevonWei 版权声明:原创作品 blog:http://119.23.52.191/ --- 构建实战之Nginx代理Tomcat [root@node1 modules]# mk ...

  2. Ansible实战之Nginx代理Tomcat主机架构

    author:JevonWei 版权声明:原创作品 实验架构:一台nginx主机为后端两台tomcat主机的代理,并使用Ansible主机配置 实验环境 Nginx 172.16.252.82 Tom ...

  3. Nginx实战之反向代理WebSocket的配置实例

    http://www.jb51.net/article/112183.htm 最近在工作中遇到一个需求,需要使用 nginx 反向代理websocket,经过查找一番资料,目前已经测试通过,所以这篇文 ...

  4. WPF实战案例-数据代理

    在我们wpf开发中,很多人会有mvvm模式去做wpf的项目. 是否有人遇到这样一个场景:在一个界面上,有个tabcontrol上面有4个页签,每个页签里面都有一个datagrid,里面显示的列基本一样 ...

  5. scrapy入门实战-爬取代理网站

    入门scrapy. 学习了有这几点 1.如何使用scrapy框架对网站进行爬虫: 2.如何对网页源代码使用xpath进行解析: 3.如何书写spider爬虫文件,对源代码进行解析: 4.学会使用scr ...

  6. 集群实战(1):swarm安装记述

    查看主机名 hostnamectl 修改主机名 hostnamectl set-hostname xxx 关闭selinux sed -i 's/SELINUX=enforcing/#SELINUX= ...

  7. 代理模式详解:静态代理+JDK/CGLIB 动态代理实战

    1. 代理模式 代理模式是一种比较好的理解的设计模式.简单来说就是 我们使用代理对象来代替对真实对象(real object)的访问,这样就可以在不修改原目标对象的前提下,提供额外的功能操作,扩展目标 ...

  8. Nginx+keepalived高可用配置实战(内附彩蛋)

    1.整体架构图如下 2.环境准备 今天所配置的是keepalived+nginx 的负载均衡 下载keepalived软件 [root@LB01 tools]# wget http://www.kee ...

  9. 详解 Java 中的三种代理模式

    代理模式 代理(Proxy)是一种设计模式,提供了对目标对象另外的访问方式;即通过代理对象访问目标对象.这样做的好处是:可以在目标对象实现的基础上,增强额外的功能操作,即扩展目标对象的功能. 这里使用 ...

  10. nginx+keepalived高可用实战

    1.整体架构图如下 2.环境准备 今天所配置的是keepalived+nginx 的负载均衡 下载keepalived软件 [root@LB01 tools]# wget http://www.kee ...

随机推荐

  1. .NET 8 + Blazor 多租户、模块化、DDD框架、开箱即用

    前言 基于 .NET 8 的开源项目,主要使用 WebAPI + Blazor 支持多租户和模块化设计,DDD构建.可以帮助我们轻松地搭建起一个功能完善的Web应用程序.除了帮助你快速构建应用程序之外 ...

  2. Python-目标检测-将xml文件转换成.txt文件

    代码说明:labels文件夹是工程下的一个文件夹,里面存放的是一些xml文件. 然后我们将这些xml文件中的内容取出来,放在路径path1的文件名下.这样也就完成了xml文件到txt文件的转化. 该代 ...

  3. 再升级!MoneyPrinterPlus集成GPT_SoVITS

    最近有很多优秀的语音合成TTS工具,目前MoneyPrinterPlus已经集成了ChatTTS和fasterWhisper.应朋友们的要求,最近MoneyPrinterPlus也集成了GPT_SoV ...

  4. 网卡DM9000裸机驱动详解

    一.网卡 1. 概念 网卡是一块被设计用来允许计算机在计算机网络上进行通讯的计算机硬件.由于其拥有MAC地址,因此属于OSI模型的第2层.它使得用户可以通过电缆或无线相互连接. 每一个网卡都有一个被称 ...

  5. elementui 修改合计行样式

    <style scoped> /deep/.el-table .el-table__footer-wrapper .cell { text-align: right } </styl ...

  6. zblog免费插件分享前端代码支持一键复制

    zblog默认的代码文件在网页前端是不支持一键复制的,这会让访客复制长代码的时候不太方便,甚至有可能会出错,影响体验,下面分享一个非常简单的免费插件,安装之后,前端代码就能一键复制了. 插件使用方法: ...

  7. 像 Mysql 和 MongoDB 这种大型软件在设计上都是精益求精的,它们为什么选择B树,B+树这些数据结构?

    为什么 MongoDB (索引)使用B-树而 Mysql 使用 B+树? B 树与 B+ 树,其比较大的特点是:B 树对于特定记录的查询,其时间复杂度更低.而 B+ 树对于范围查询则更加方便,另外 B ...

  8. 鸿蒙系统(HarmonyOS)全局弹窗实现

    全局弹窗相对于自定义弹窗有以下优点: 封装更彻底,一行代码就能调用 跟组件耦合度低,只需要传入组件的UIContext对象,不需要跟自定义弹窗一样需要在组件内部实例化CustomDialogContr ...

  9. 关于 Splay 树

    前置芝士 $\LARGE {关于二叉搜索树及平衡树无聊的一大串子定义}$ 二叉搜索树(BST树) 定义 二叉搜索树是一种二叉树的树形数据结构,其定义如下: 空树是二叉搜索树. 若二叉搜索树的左子树不为 ...

  10. 006.MinIO基础使用

    图形界面基础使用 bucket bucket创建 图形界面创建bucket. 特性: Versioning 开启版本控制,开启版本控制则允许在同一键下保持同一对象的多个版本. Object Locki ...