大模型流式调用规范(SSE)
随着大语言模型的广泛应用,如何高效地与其进行接口调用成为一个关键问题。传统的请求-响应模式在面对大模型生成大量文本时存在响应延迟高、用户体验差等问题。流式输出(Streaming)是解决该问题的重要手段。
本文将介绍基于 Server-Sent Events(SSE) 协议的大模型流式调用规范,并结合 Spring Boot 给出一个完整的服务端与客户端调用示例。
一、为什么选择SSE?
在与大模型进行对话时,模型通常会逐字逐句生成内容。如果采用传统的HTTP请求,需要等到模型生成完所有内容再响应给客户端,导致延迟较高。而使用SSE协议,可以做到边生成边推送,极大提升交互性和用户体验。
SSE的优势:
单向连接:服务端主动推送,客户端自动接收;
使用HTTP协议,浏览器原生支持;
实现简单,适用于流式文本输出场景。
二、流式调用接口规范(基于SSE)
请求方式
方法:POST
Content-Type:application/json
Accept:text/event-stream
请求示例
POST /chat/stream
{
"prompt": "你好,请介绍一下三国演义。",
"stream": true
}
响应格式(SSE流)
data: {"id":"msg_001","content":"三国演义是中国古代四大名著之一..."}
data: {"id":"msg_001","content":"它讲述了东汉末年群雄割据的故事..."}
data: [DONE]
每行以
data:开头,后接JSON字符串;最后一行以
data: [DONE]表示流结束;客户端需要实时解析接收到的
content字段并展示。
三、Spring Boot服务端示例
下面是一个基于Spring Boot的SSE流式接口实现示例。
1. Controller层
@RestController
@RequestMapping("/chat")
public class ChatController { @PostMapping(value = "/stream", produces = MediaType.TEXT_EVENT_STREAM_VALUE)
public SseEmitter streamChat(@RequestBody ChatRequest request) {
SseEmitter emitter = new SseEmitter(0L); // 不设置超时时间 CompletableFuture.runAsync(() -> {
try {
// 模拟逐句生成的响应
List<String> responses = mockModelResponse(request.getPrompt()); for (String sentence : responses) {
Map<String, String> data = new HashMap<>();
data.put("id", "msg_001");
data.put("content", sentence); emitter.send(SseEmitter.event()
.data(new ObjectMapper().writeValueAsString(data))); Thread.sleep(500); // 模拟生成延迟
} emitter.send("data: [DONE]\n\n");
emitter.complete();
} catch (Exception e) {
emitter.completeWithError(e);
}
}); return emitter;
} private List<String> mockModelResponse(String prompt) {
return List.of(
"三国演义是中国古代四大名著之一。",
"它讲述了东汉末年群雄割据的故事。",
"主要人物包括刘备、关羽、张飞、曹操、孙权等。"
);
}
}
2. 请求类定义
public class ChatRequest {
private String prompt;
private boolean stream;
// getters and setters
}
四、客户端调用示例(Java)
使用Spring WebFlux进行客户端流式接收:
WebClient client = WebClient.create(); client.post()
.uri("http://localhost:8080/chat/stream")
.header(HttpHeaders.ACCEPT, MediaType.TEXT_EVENT_STREAM_VALUE)
.bodyValue(Map.of("prompt", "介绍一下三国演义", "stream", true))
.retrieve()
.bodyToFlux(String.class)
.doOnNext(System.out::println)
.blockLast();
五、总结与建议
基于SSE的大模型流式调用,能显著提升响应速度与用户体验。在使用时需要注意:
SSE适合文字类输出,若涉及音频/图片等内容建议使用WebSocket;
服务端处理时需考虑异常与资源释放;
客户端需具备实时处理与拼接能力。
大模型流式调用规范(SSE)的更多相关文章
- PowerDesigner 学习:十大模型及五大分类
个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...
- PowerDesigner 15学习笔记:十大模型及五大分类
个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...
- 无插件的大模型浏览器Autodesk Viewer开发培训-武汉-2014年8月28日 9:00 – 12:00
武汉附近的同学们有福了,这是全球第一次关于Autodesk viewer的教室培训. :) 你可能已经在各种场合听过或看过Autodesk最新推出的大模型浏览器,这是无需插件的浏览器模型,支持几十种数 ...
- 洛谷P4014 分配问题【最小/大费用流】题解+AC代码
洛谷P4014 分配问题[最小/大费用流]题解+AC代码 题目描述 有 n 件工作要分配给 n 个人做.第 i 个人做第 j 件工作产生的效益为c ij. 试设计一个将 n 件工作分配给 n 个人做的 ...
- 华为高级研究员谢凌曦:下一代AI将走向何方?盘古大模型探路之旅
摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...
- 文心大模型api使用
文心大模型api使用 首先,我们要获取硅谷社区的连个key 复制两个api备用 获取Access Token 获取access_token示例代码 之后就会输出 作文创作 作文创作:作文创作接口基于文 ...
- AI大模型学习了解
# 百度文心 上线时间:2019年3月 官方介绍:https://wenxin.baidu.com/ 发布地点: 参考资料: 2600亿!全球最大中文单体模型鹏城-百度·文心发布 # 华为盘古 上线时 ...
- 千亿参数开源大模型 BLOOM 背后的技术
假设你现在有了数据,也搞到了预算,一切就绪,准备开始训练一个大模型,一显身手了,"一朝看尽长安花"似乎近在眼前 -- 且慢!训练可不仅仅像这两个字的发音那么简单,看看 BLOOM ...
- DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍 1. 概述 近日来,ChatGPT及类似模型引发了人工智能(AI)领域的一场风潮. 这场风潮对数字世 ...
- 【ASP.NET Core】MVC模型绑定:非规范正文内容的处理
本篇老周就和老伙伴们分享一下,对于客户端提交的不规范 Body 如何做模型绑定.不必多说,这种情况下,只能自定义 ModelBinder 了.而且最佳方案是不要注册为全局 Binder--毕竟这种特殊 ...
随机推荐
- Dibble pg walkthrough Intermediate
nmap 21/tcp open ftp vsftpd 3.0.3 | ftp-anon: Anonymous FTP login allowed (FTP code 230) |_Can't get ...
- VulNyx - System
扫描发现 2121是ftp端口 8000 http的一个端口 6379redis端口 爆破redis的密码 爆破出来时bonjour 猜测ftp的密码和redis的密码是一样的 尝试用密码去爆出ftp ...
- mysql8.0无备份通过idb文件恢复数据过程、idb文件修复和tablespace id不一致处理
周末突然接到一位一年多没联系的妹妹打来电话,"刘哥,快来救救我",我脑海瞬间冒出妙瓦底,电信火苲马扁.....,当时就冒汗了,心想这个妹子怎么被... 问其原由,原来是他们公司服务 ...
- 11. SpringCloud Alibaba Seata 分布式事务处理的详细使用以及详细剖析
11. SpringCloud Alibaba Seata 分布式事务处理的详细使用以及详细剖析 先看一个问题,引出 Seata 单机单库(多表)处理事务示意图 分布式微服务架构下的数据库事务示意图: ...
- have my hair cut
标题致敬传奇抗压王裤子. 今天去剪了头发.体验很好,老师帅. 但是还是一直很不安 我们 i 人剪了头发是这样的 剪头发不是换发型 但大概率得换 而且很快会剪短 乌龟的壳换了形状 或是变薄 肯定不安 一 ...
- Luogu P9869 NOIp2023 三值逻辑 题解 [ 绿 ] [ 带权并查集 ]
三值逻辑:有点坑并且细节较繁琐,但有点板子的并查集. 修改操作 发现对于每个点,只有对他的最后一次操作才是有用的,所以记录下最终的祖先即可. 然而这里并不能用并查集来实现,因为并查集它具有的是传递性, ...
- ABC323E Playlist 题解
考虑第 \(i\) 时刻时,第 \(j\) 首歌刚好结束与第 \(i-j\) 时刻有关,因此设 \(dp_{i,j}\) 表示第 \(i\) 时刻第 \(j\) 首歌刚好结束的概率,那么 \(dp\) ...
- Javascript Object对象转Map
1. Object对象 const data = { "banana": [ { "color": "yellow", "coun ...
- Win10、Win11老游戏运行补丁(cnc-ddraw),适用于红色警戒、帝国时代等经典游戏
Win11.Win10老游戏运行补丁(cnc-ddraw),适用广泛,红色警戒(红警),直接复制到游戏目录,然后即可畅玩.再也不需要修改:管理员运行,兼容性运行,更改DPI.cnc-ddraw 可以修 ...
- Flink学习(十二) Sink到JDBC(可扩展到任何关系型数据库)
导入依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java& ...