大模型流式调用规范（SSE）

随着大语言模型的广泛应用，如何高效地与其进行接口调用成为一个关键问题。传统的请求-响应模式在面对大模型生成大量文本时存在响应延迟高、用户体验差等问题。流式输出（Streaming）是解决该问题的重要手段。

本文将介绍基于 Server-Sent Events（SSE） 协议的大模型流式调用规范，并结合 Spring Boot 给出一个完整的服务端与客户端调用示例。

一、为什么选择SSE？

在与大模型进行对话时，模型通常会逐字逐句生成内容。如果采用传统的HTTP请求，需要等到模型生成完所有内容再响应给客户端，导致延迟较高。而使用SSE协议，可以做到边生成边推送，极大提升交互性和用户体验。

SSE的优势：

单向连接：服务端主动推送，客户端自动接收；
使用HTTP协议，浏览器原生支持；
实现简单，适用于流式文本输出场景。

二、流式调用接口规范（基于SSE）

请求方式

方法：POST
Content-Type：application/json
Accept：text/event-stream

请求示例

POST /chat/stream

{

  "prompt": "你好，请介绍一下三国演义。",

  "stream": true

}

响应格式（SSE流）

data: {"id":"msg_001","content":"三国演义是中国古代四大名著之一..."}

data: {"id":"msg_001","content":"它讲述了东汉末年群雄割据的故事..."}

data: [DONE]

每行以 data: 开头，后接JSON字符串；
最后一行以 data: [DONE] 表示流结束；
客户端需要实时解析接收到的 content 字段并展示。

三、Spring Boot服务端示例

下面是一个基于Spring Boot的SSE流式接口实现示例。

1. Controller层

@RestController

@RequestMapping("/chat")

public class ChatController {

    @PostMapping(value = "/stream", produces = MediaType.TEXT_EVENT_STREAM_VALUE)

    public SseEmitter streamChat(@RequestBody ChatRequest request) {

        SseEmitter emitter = new SseEmitter(0L); // 不设置超时时间

        CompletableFuture.runAsync(() -> {

            try {

                // 模拟逐句生成的响应

                List<String> responses = mockModelResponse(request.getPrompt());

                for (String sentence : responses) {

                    Map<String, String> data = new HashMap<>();

                    data.put("id", "msg_001");

                    data.put("content", sentence);

                    emitter.send(SseEmitter.event()

                            .data(new ObjectMapper().writeValueAsString(data)));

                    Thread.sleep(500); // 模拟生成延迟

                }

                emitter.send("data: [DONE]\n\n");

                emitter.complete();

            } catch (Exception e) {

                emitter.completeWithError(e);

            }

        });

        return emitter;

    }

    private List<String> mockModelResponse(String prompt) {

        return List.of(

                "三国演义是中国古代四大名著之一。",

                "它讲述了东汉末年群雄割据的故事。",

                "主要人物包括刘备、关羽、张飞、曹操、孙权等。"

        );

    }

}

2. 请求类定义

public class ChatRequest {

    private String prompt;

    private boolean stream;

    // getters and setters

}

四、客户端调用示例（Java）

使用Spring WebFlux进行客户端流式接收：

WebClient client = WebClient.create();

client.post()

    .uri("http://localhost:8080/chat/stream")

    .header(HttpHeaders.ACCEPT, MediaType.TEXT_EVENT_STREAM_VALUE)

    .bodyValue(Map.of("prompt", "介绍一下三国演义", "stream", true))

    .retrieve()

    .bodyToFlux(String.class)

    .doOnNext(System.out::println)

    .blockLast();

五、总结与建议

基于SSE的大模型流式调用，能显著提升响应速度与用户体验。在使用时需要注意：

SSE适合文字类输出，若涉及音频/图片等内容建议使用WebSocket；
服务端处理时需考虑异常与资源释放；
客户端需具备实时处理与拼接能力。

大模型流式调用规范（SSE）的更多相关文章

PowerDesigner 学习：十大模型及五大分类
个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...
PowerDesigner 15学习笔记：十大模型及五大分类
个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...
无插件的大模型浏览器Autodesk Viewer开发培训-武汉-2014年8月28日 9:00 – 12:00
武汉附近的同学们有福了,这是全球第一次关于Autodesk viewer的教室培训. :) 你可能已经在各种场合听过或看过Autodesk最新推出的大模型浏览器,这是无需插件的浏览器模型,支持几十种数 ...
洛谷P4014 分配问题【最小/大费用流】题解+AC代码
洛谷P4014 分配问题[最小/大费用流]题解+AC代码题目描述有 n 件工作要分配给 n 个人做.第 i 个人做第 j 件工作产生的效益为c ij. 试设计一个将 n 件工作分配给 n 个人做的 ...
华为高级研究员谢凌曦：下一代AI将走向何方？盘古大模型探路之旅
摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...
文心大模型api使用
文心大模型api使用首先,我们要获取硅谷社区的连个key 复制两个api备用获取Access Token 获取access_token示例代码之后就会输出作文创作作文创作:作文创作接口基于文 ...
AI大模型学习了解
# 百度文心上线时间:2019年3月官方介绍:https://wenxin.baidu.com/ 发布地点: 参考资料: 2600亿!全球最大中文单体模型鹏城-百度·文心发布 # 华为盘古上线时 ...
千亿参数开源大模型 BLOOM 背后的技术
假设你现在有了数据,也搞到了预算,一切就绪,准备开始训练一个大模型,一显身手了,"一朝看尽长安花"似乎近在眼前 -- 且慢!训练可不仅仅像这两个字的发音那么简单,看看 BLOOM ...
DeepSpeed Chat: 一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍 1. 概述近日来,ChatGPT及类似模型引发了人工智能(AI)领域的一场风潮. 这场风潮对数字世 ...
【ASP.NET Core】MVC模型绑定：非规范正文内容的处理
本篇老周就和老伙伴们分享一下,对于客户端提交的不规范 Body 如何做模型绑定.不必多说,这种情况下,只能自定义 ModelBinder 了.而且最佳方案是不要注册为全局 Binder--毕竟这种特殊 ...

随机推荐

Dibble pg walkthrough Intermediate
nmap 21/tcp open ftp vsftpd 3.0.3 | ftp-anon: Anonymous FTP login allowed (FTP code 230) |_Can't get ...
VulNyx - System
扫描发现 2121是ftp端口 8000 http的一个端口 6379redis端口爆破redis的密码爆破出来时bonjour 猜测ftp的密码和redis的密码是一样的尝试用密码去爆出ftp ...
mysql8.0无备份通过idb文件恢复数据过程、idb文件修复和tablespace id不一致处理
周末突然接到一位一年多没联系的妹妹打来电话,"刘哥,快来救救我",我脑海瞬间冒出妙瓦底,电信火苲马扁.....,当时就冒汗了,心想这个妹子怎么被... 问其原由,原来是他们公司服务 ...
11. SpringCloud Alibaba Seata 分布式事务处理的详细使用以及详细剖析
11. SpringCloud Alibaba Seata 分布式事务处理的详细使用以及详细剖析先看一个问题,引出 Seata 单机单库(多表)处理事务示意图分布式微服务架构下的数据库事务示意图: ...
have my hair cut
标题致敬传奇抗压王裤子. 今天去剪了头发.体验很好,老师帅. 但是还是一直很不安我们 i 人剪了头发是这样的剪头发不是换发型但大概率得换而且很快会剪短乌龟的壳换了形状或是变薄肯定不安一 ...
Luogu P9869 NOIp2023 三值逻辑题解 [ 绿 ] [ 带权并查集 ]
三值逻辑:有点坑并且细节较繁琐,但有点板子的并查集. 修改操作发现对于每个点,只有对他的最后一次操作才是有用的,所以记录下最终的祖先即可. 然而这里并不能用并查集来实现,因为并查集它具有的是传递性, ...
ABC323E Playlist 题解
考虑第 \(i\) 时刻时,第 \(j\) 首歌刚好结束与第 \(i-j\) 时刻有关,因此设 \(dp_{i,j}\) 表示第 \(i\) 时刻第 \(j\) 首歌刚好结束的概率,那么 \(dp\) ...
Javascript Object对象转Map
1. Object对象 const data = { "banana": [ { "color": "yellow", "coun ...
Win10、Win11老游戏运行补丁（cnc-ddraw），适用于红色警戒、帝国时代等经典游戏
Win11.Win10老游戏运行补丁(cnc-ddraw),适用广泛,红色警戒(红警),直接复制到游戏目录,然后即可畅玩.再也不需要修改:管理员运行,兼容性运行,更改DPI.cnc-ddraw 可以修 ...
Flink学习（十二） Sink到JDBC(可扩展到任何关系型数据库)
导入依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java& ...