在上一章节中，我们深入分析了Spring AI的阻塞式请求与响应机制，并探讨了如何增强其记忆能力。今天，我们将重点讲解流式响应的概念与实现。毕竟，AI的流式回答功能与其交互体验密切相关，是提升用户满意度的重要组成部分。

基本用法

基本用法非常简单，只需增加一个 stream 方法即可实现所需功能。接下来，我们将通过代码示例来展示这一过程，帮助您更清晰地理解如何在实际应用中进行操作。请看以下代码：

@GetMapping(value = "/ai-stream",produces = MediaType.APPLICATION_OCTET_STREAM_VALUE + ";charset=UTF-8")

Flux<String> generationByStream(@RequestParam("userInput") String userInput) {

    Flux<String> output = chatClient.prompt()

            .user(userInput)

            .stream()

            .content();

    return output;

}

在我们增加 stream 方法之后，返回的对象类型将不再是原来的阻塞式 CallResponseSpec，而是转换为非阻塞的 StreamResponseSpec。与此同时，返回的数据类型也由之前的 String 变更为 Flux。

在深入探讨其具体应用之前，首先让我来介绍一下 Flux 的概念与特性。

Spring WebFlux的处理器实现

首先，在 WebFlux 中，处理器已经实现了非阻塞式的功能。这意味着，只要我们的代码返回一个 Flux 对象，就能轻松实现响应功能。通过这种方式，应用程序能够高效地处理并发请求，而不会因阻塞操作而影响整体性能。

    @Override

    public Mono<Void> handle(ServerWebExchange exchange) {

        if (this.handlerMappings == null) {

            return createNotFoundError();

        }

        if (CorsUtils.isPreFlightRequest(exchange.getRequest())) {

            return handlePreFlight(exchange);

        }

        return Flux.fromIterable(this.handlerMappings)

                .concatMap(mapping -> mapping.getHandler(exchange))

                .next()

                .switchIfEmpty(createNotFoundError())

                .onErrorResume(ex -> handleResultMono(exchange, Mono.error(ex)))

                .flatMap(handler -> handleRequestWith(exchange, handler));

    }

这里简单介绍一下 Spring WebFlux，虽然这不是我们的重点，但了解其基本概念还是很有帮助的。Spring WebFlux 是 Spring 框架的一部分，专为构建反应式应用而设计。它支持异步和非阻塞的编程模型，使得处理高并发请求变得更加高效。以下是 WebFlux 的几个关键特性：

反应式编程：WebFlux 基于反应式编程模型，使用 Mono 和 Flux 类型来处理数据流。Mono 表示零或一个元素，而 Flux 则表示零个或多个元素。这种模型使得我们可以轻松处理异步数据流，从而提高代码的可读性和可维护性。
非阻塞 I/O：WebFlux 通过非阻塞的 I/O 操作（如 Netty 或 Servlet 3.1+ 容器）来实现高效的资源利用。与传统的阻塞 I/O 不同，WebFlux 在等待响应时能够释放线程，这样一来，就可以显著提高应用的并发能力，支持更多的同时请求而不增加线程开销。

了解这些特性将为后续的非阻塞式响应设计奠定基础，帮助我们更好地利用 WebFlux 的能力来提升应用性能。

源码分析

现在我们来详细看看我们的 content 是如何操作的。接下来的代码示例将展示具体的实现方式，帮助我们理解在 WebFlux 中如何处理数据流和响应:

public Flux<String> content() {

    return doGetFluxChatResponse(this.request).map(r -> {

        if (r.getResult() == null || r.getResult().getOutput() == null

                || r.getResult().getOutput().getContent() == null) {

            return "";

        }

        return r.getResult().getOutput().getContent();

    }).filter(StringUtils::hasLength);

}

这里的实现相对简单，主要是传入了一个函数。接下来，我们将深入分析 doGetFluxChatResponse 的代码实现，以便更好地理解其具体逻辑和运作方式：

private Flux<ChatResponse> doGetFluxChatResponse2(DefaultChatClientRequestSpec inputRequest) {

//此处省略重复代码

    var fluxChatResponse = this.chatModel.stream(prompt);

//此处省略重复代码

    return advisedResponse;

}

这里的代码逻辑与阻塞回答基本相同，唯一的不同之处在于它调用了 chatModel.stream(prompt) 方法。接下来，我们将深入探讨 chatModel.stream(prompt) 方法的具体实现和其背后的设计思路：

public Flux<ChatResponse> stream(Prompt prompt) {

        return Flux.deferContextual(contextView -> {

        //此处省略重复代码

            Flux<OpenAiApi.ChatCompletionChunk> completionChunks = this.openAiApi.chatCompletionStream(request,

                    getAdditionalHttpHeaders(prompt));

//此处省略重复代码

            Flux<ChatResponse> chatResponse = completionChunks.map(this::chunkToChatCompletion)

                .switchMap(chatCompletion -> Mono.just(chatCompletion).map(chatCompletion2 -> {

//此处省略重复代码

                        return new ChatResponse(generations, from(chatCompletion2, null));

                    }

                }));

//此处省略重复代码

            return new MessageAggregator().aggregate(flux, observationContext::setResponse);

        });

    }

同样的逻辑在这里就不再赘述，我们将重点关注其中的区别。在这一部分，我们使用了 chatCompletionStream，而且与之前不同的是，这里不再使用 retryTemplate，而是引入了 webClient，这是一个能够接收事件流的工具类。

public Flux<ChatCompletionChunk> chatCompletionStream(ChatCompletionRequest chatRequest,

        MultiValueMap<String, String> additionalHttpHeader) {

    Assert.notNull(chatRequest, "The request body can not be null.");

    Assert.isTrue(chatRequest.stream(), "Request must set the stream property to true.");

    AtomicBoolean isInsideTool = new AtomicBoolean(false);

    return this.webClient.post()

        .uri(this.completionsPath)

        .headers(headers -> headers.addAll(additionalHttpHeader))

        .body(Mono.just(chatRequest), ChatCompletionRequest.class)

        .retrieve()

        .bodyToFlux(String.class)

        // cancels the flux stream after the "[DONE]" is received.

        .takeUntil(SSE_DONE_PREDICATE)

        // filters out the "[DONE]" message.

        .filter(SSE_DONE_PREDICATE.negate())

        .map(content -> ModelOptionsUtils.jsonToObject(content, ChatCompletionChunk.class))

//此处省略一堆代码

这段代码的主要目的是通过 webClient 向指定路径发起一个 POST 请求，同时设置合适的请求头和请求体。在获取响应数据时，使用了事件流的方式（通过 bodyToFlux 方法）来接收响应内容，并对数据进行过滤和转换，最终将其转化为 ChatCompletionChunk 对象。

尽管其余的业务逻辑与之前相似，但有一点显著的区别，即整个流程的返回类型以及与 OpenAI API 的调用方式都是非阻塞式的。

总结

在当今的数字时代，流式响应机制不仅提升了系统的性能，还在用户体验上扮演了关键角色。通过引入 Flux 类型，Spring WebFlux 的设计理念使得应用能够以非阻塞的方式处理并发请求，从而有效利用资源并减少响应延迟。

我们终于全面讲解了Spring AI的基本操作，包括阻塞式回答、流式回答以及记忆增强功能。这些内容为我们深入理解其工作机制奠定了基础。接下来，我们将继续深入探索源码，重点分析回调函数、实体类映射等重要功能。

这将帮助我们更好地理解Spring AI的内部运作原理，并为进一步的优化和定制化提供指导。

我是努力的小雨，一名 Java 服务端码农，潜心研究着 AI 技术的奥秘。我热爱技术交流与分享，对开源社区充满热情。同时也是一位腾讯云创作之星、阿里云专家博主、华为云云享专家、掘金优秀作者。

我将不吝分享我在技术道路上的个人探索与经验，希望能为你的学习与成长带来一些启发与帮助。

欢迎关注努力的小雨！

深入探索Spring AI：源码分析流式回答的更多相关文章

Spring AOP 源码分析 - 拦截器链的执行过程
1.简介本篇文章是 AOP 源码分析系列文章的最后一篇文章,在前面的两篇文章中,我分别介绍了 Spring AOP 是如何为目标 bean 筛选合适的通知器,以及如何创建代理对象的过程.现在我们的得 ...
精尽Spring MVC源码分析 - MultipartResolver 组件
该系列文档是本人在学习 Spring MVC 的源码过程中总结下来的,可能对读者不太友好,请结合我的源码注释 Spring MVC 源码分析 GitHub 地址进行阅读 Spring 版本:5.2. ...
Spring Security 源码分析（四）：Spring Social实现微信社交登录
社交登录又称作社会化登录(Social Login),是指网站的用户可以使用腾讯QQ.人人网.开心网.新浪微博.搜狐微博.腾讯微博.淘宝.豆瓣.MSN.Google等社会化媒体账号登录该网站. 前言 ...
spring事务源码分析结合mybatis源码(一)
最近想提升,苦逼程序猿,想了想还是拿最熟悉,之前也一直想看但没看的spring源码来看吧,正好最近在弄事务这部分的东西,就看了下,同时写下随笔记录下,以备后查. spring tx源码分析这里只分析 ...
spring AOP源码分析（三）
在上一篇文章 spring AOP源码分析(二)中,我们已经知道如何生成一个代理对象了,那么当代理对象调用代理方法时,增强行为也就是拦截器是如何发挥作用的呢?接下来我们将介绍JDK动态代理和cglib ...
Spring AOP 源码分析 - 创建代理对象
1.简介在上一篇文章中,我分析了 Spring 是如何为目标 bean 筛选合适的通知器的.现在通知器选好了,接下来就要通过代理的方式将通知器(Advisor)所持有的通知(Advice)织入到 b ...
Spring AOP 源码分析 - 筛选合适的通知器
1.简介从本篇文章开始,我将会对 Spring AOP 部分的源码进行分析.本文是 Spring AOP 源码分析系列文章的第二篇,本文主要分析 Spring AOP 是如何为目标 bean 筛选出 ...
Spring AOP 源码分析系列文章导读
1. 简介前一段时间,我学习了 Spring IOC 容器方面的源码,并写了数篇文章对此进行讲解.在写完 Spring IOC 容器源码分析系列文章中的最后一篇后,没敢懈怠,趁热打铁,花了3天时间阅 ...
Spring IOC 源码分析
Spring 最重要的概念是 IOC 和 AOP,本篇文章其实就是要带领大家来分析下 Spring 的 IOC 容器.既然大家平时都要用到 Spring,怎么可以不好好了解 Spring 呢?阅读本文 ...
Spring AMQP 源码分析 08 - XML 配置
### 准备 ## 目标通过 XML 配置文件使用 Spring AMQP ## 前置知识 <Spring AMQP 源码分析 07 - MessageListenerAdapter> ...

随机推荐

将txt转化为csv的方法和遇到问题
一.无法修改扩展名步骤如下二.转换之后所有数据都挤在第一列 win10系统修改文件扩展名只需4部,打开我的电脑->查看->选择->查看->取消勾选(已知隐藏文件的扩展名)-& ...
Python和RPA网页自动化-浏览器切换不同窗口页面
以百度为例,点击[BOSS直聘]词条会打开一个BOSS新窗口页面,分别使用Python和RPA网页自动化在不同的窗口页面来回切换窗口完成以下顺序步骤 1.Python代码如下步骤:打开新窗口页面后, ...
使用 `useServerSeoMeta` 优化您的网站 SEO
title: 使用 useServerSeoMeta 优化您的网站 SEO date: 2024/7/31 updated: 2024/7/31 author: cmdragon excerpt: 摘 ...
DASCTF2022.07赋能赛PWN部分WP
DASCTF2022.07赋能赛PWN部分WP eyfor 程序保护情况 64位ida逆向可以看见是一个随机数的逻辑,只要我们猜不对4次就可以进入漏洞函数,但是我感觉这原本可能是==号,让用随机数的 ...
【GeoScene】一、创建、发布路网服务，并在代码中测试最短路径分析
前言网上关于GeoScene及GeoScene API for JavaScript的资料太少了,官方的技术支持又太慢了,最近把在项目中踩过的坑分享出来: **版本信息** GeoScene Pro ...
【Java】Main方法的命令行参数
可以使用命令行注入参数执行
【AJAX】Asynchronous JavaScript And XML （非同步的JS & XML）
什么是AJAX? 按照使用的感觉来看说到底就是一个可以不刷新网页就能发送POST & GET请求的技术 AJAX 即"Asynchronous Javascript And XML ...
【转载】 AI与人类首次空战，5:0大胜！40亿次模拟造美国怪兽，谁与争锋？（再次证明深度强化学习路线的正确性）
原文: https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_1003478953355572 ...
pip install --user 使用方法和注意事项——python中安装module库到用户packages路径中
pip install --user 是python中安装module库到用户packages路径中的方法. 参考: https://blog.csdn.net/The_Time_Runner/a ...
Longley数据集——强共线性的宏观经济数据,包含GNP deflator(GNP平减指数)、GNP(国民生产总值)、Unemployed(失业率)、ArmedForces(武装力量)、Population(人口)、year(年份)，Emlpoyed(就业率)。LongLey数据集因存在严重的多重共线性问题，在早期经常用来检验各种算法或计算机的计算精度
Longley数据集来自J．W．Longley(1967)发表在JASA上的一篇论文,是强共线性的宏观经济数据,包含GNP deflator(GNP平减指数).GNP(国民生产总值).Unemploy ...

深入探索Spring AI：源码分析流式回答

基本用法

Spring WebFlux的处理器实现

源码分析

总结

深入探索Spring AI：源码分析流式回答的更多相关文章

随机推荐

热门专题