关于陪伴型交互AI的一些探讨

怎么说呢主要是发布下关于自己关于AI VTuber的开发进展

前言

目前的化对整体内容进行了局部的优化和更新,并更新到了v0.5.0版本!【好累啊,都没什么热情了】

整体架构已经初步具备了稳定性以及整体工作流的实现

Github项目链接: Interactive-LLM-VTuber (v0.5.0)

同时决定不在继续在v0.5.0的版本上继续更新,并完全开源代码贡献社区发展【详细请看项目开发文档】

该项目从去年十一月开始,耗时10个月,独立开发

虽然但是,实际上只用了1的月半的时间就已经将主要功能开发完成了,但因为js我并不熟悉的问题排查了很长时间才更新到v0.4.2,这个月在AI的帮助下才总算是完成了整个项目的开发。。。。【我要死了,真的】

我只能说,这个项目耗费了我大量的心血,但在前端的问题上也给力我很大的压力【虽然最后找到问题是因为经典的前端和服务器无法主动发起相应的问题,只能等到用户有交互操作才能触发下一步【全部卡在前端的语音交互的模块构建了】】,中间的构建过程中也学到了不少内容,但我总觉得,如果我有能力就能学会更多的东西才对。。。

总之,不搞前端的交互了,就算搞也是去搞搞后端+Unity的功能型实现吧。。。

多余的我也不想多说了,感兴趣可以去项目页看看。

我累了,我得歇会【哈基米燃尽了】

等后面再发发其他项目的构想【除此以为的好像也做了不少好玩的代码全部放在WorkBench了】

后面还得准备比赛和四级

以及 深度学习【理论+实践】+强化学习+脑神经学+分子生物学+病毒+神经网络模拟+生成式认知主体+天才的诞生 的研究和发表【躺】【初步仓库先在Github建好了】

就算累了还得整理资料。。。

啊啊啊啊

睡觉去了



v0.5.0 更新(2025-09-26)

针对稳定性、用户体验和可扩展性的前端和后端优化:

前端

新布局:顶部栏(左侧版本,右侧设置 + MCP 按钮)、左侧聊天记录、底部居中的 GPT 风格输入(圆角文本区域 + 麦克风 + 发送)。

音频自动播放解锁:一个用户手势即可解锁整个会话的音频。

语音流程重做:语音输入现在仅执行 ASR。停止时,前端会轮询/latest_asr、自动填充并发送文本,统一文本→LLM→TTS→播放→历史记录的流程(防止音频播放过时)。

历史 + 流媒体:左侧历史显示“你/AI”;AI 回复以打字机流媒体呈现;在本地保留最后 200 条消息。

思考指示:底部芯片“思考中……”+发送按钮加载状态。

背景设置:设置页面添加背景(颜色/图像)。保存后会触发热重载并立即应用,无需刷新。

MCP 按钮:显示状态(运行/停止)并切换mcp_tool.py进程。

后端

API/路径强化:绝对音频 URL、TTS 后的文件存在检查、固定/audio/目录、TTS 空文本保护。

语音输入重做:录音线程仅写入最后的 ASR 文本;添加GET /latest_asr到前端。

热加载设置:POST /settings自动加载;POST /reload_settings手动加载。传播至 TTS/LLM/系统提示/音频文件夹。

MCP 集成:GET /mcp/status、POST /mcp/start、POST /mcp/stop来控制mcp_tool.py。

如何使用(重点)

开始:python server.py然后访问http://127.0.0.1:5000/。

文本:输入并按发送/回车键。

语音:单击麦克风开始,再次单击停止;识别的文本自动发送。

设置:调整 TTS/LLM/背景并保存 - 无需重启即可热加载。

MCP:通过右上角的按钮切换。

记录 | 关于陪伴型交互AI的一些探讨的更多相关文章

  1. CozyRSS开发记录19-窗口标题栏交互

    CozyRSS开发记录19-窗口标题栏交互 1.谈谈对mvvm解耦的看法 在使用mvvm时,如何操作窗口,这是一个问题.这个问题的关键点是:mvvm是把view和viewmodel解耦了的,很多写法一 ...

  2. SpringMVC学习记录七——sjon数据交互和拦截器

    21       json数据交互 21.1      为什么要进行json数据交互 json数据格式在接口调用中.html页面中较常用,json格式比较简单,解析还比较方便. 比如:webservi ...

  3. 【第7篇】AI语音交互原理介绍

    本章主要介绍AI语音交互的原理,包括语音交互的流程以及各流程节点所涉及的相关知识,如语音采集.语音识别.自然语言处理.语音合成等. 2.1 AI语音交互 AI语音交互通俗点说就是人与机器间进行语音理解 ...

  4. firefox 扩展开发笔记(三):高级ui交互编程

    firefox 扩展开发笔记(三):高级ui交互编程 前言 前两篇链接 1:firefox 扩展开发笔记(一):jpm 使用实践以及调试 2:firefox 扩展开发笔记(二):进阶开发之移动设备模拟 ...

  5. 大型情感类电视连续剧--Android高德之旅(3)地图交互

    总要说两句 前两篇讲到了地图的基础显示和地图类型,今天来记录下高德地图交互相关的设置.地图的绘制分很多层,层级的显示需要根据不同的场景来设置.地图的触摸事件也很丰富,有单击.双击.单指拖拽.双指拖拽. ...

  6. (转)iOS Wow体验 - 第六章 - 交互模型与创新的产品概念(2)

    本文是<iOS Wow Factor:Apps and UX Design Techniques for iPhone and iPad>第六章译文精选的第二部分,其余章节将陆续放出.上一 ...

  7. 一款APP的交互文档从撰写到交付

    我第一份工作的设计总监是前百度设计师,34岁,一线设计12年:今年聊天说转了产品总监,如今39岁还活跃在行业中…… 我第二份工作的部门总监是前腾讯工程师,38岁,一线开发14年:2年前在Q群里跟我们说 ...

  8. 象棋AI算法(二)

    原文大神是用html5+js写的关于象棋AI的博客,里面重点讲了棋子的着法,自己设计的评估函数和简单的Minmax理论,没有具体的讲搜索算法,本文是对原文的学习和分析补充 一,棋子的着法com.byl ...

  9. [转]象棋AI算法(二)

    本文转自:http://blog.csdn.net/u012723995/article/details/47143569 参考文献:http://bbs.blueidea.com/thread-30 ...

  10. 未来图书-需求分析——脑机接口、VR、AI推荐系统

    个人比较喜欢科幻作品,也常常畅想未来.. "书"作为几千年来人类文明信息载体,必然会不断演变.. 文荟宿舍墙上贴着Elon Musk的海报,向往像他一样能够在有限的生命中用极致的想 ...

随机推荐

  1. Living-Food-自制 养殖:鸡鸭鹅/牛羊鱼 + 种植:蔬菜/蘑菇 + 主食: 米线/米粉

    Living-Food-自制 主食: 米线/米粉 养殖:鸡鸭鹅/牛羊鱼 公母混养. 温度.湿度.自然环境(自然土壤.通风透气.采光).野生环境(种子/阳光/水/土壤/空气) 食物:稻谷饲料.红薯.苔藓 ...

  2. 深度技术Win7旗舰版如何加入局域网的问题

    有深度技术的小伙伴,说使用的win7 64位旗舰版系统要如何才能加入局域网,来实现文件共享的问题,那要如何设置呢?本文中,深度系统小编就来分享详细的设置方法,大家一起来学习一下吧. 以下是 Win7 ...

  3. DP 好题题单整理

    可能会持续更新,但是可能会被我放着不管. 题目 思路 数字序列 对最长不下降子序列模型的理解 Circling Round Treasures 一道状压好题 星空 一道重点不在于 \(dp\) 的思维 ...

  4. X-ECharts:Vue项目中数据可视化的终极利器

    X-ECharts:Vue项目中数据可视化的终极利器 在当今数据驱动的时代,数据可视化对于任何应用程序来说都至关重要.ECharts作为一款广泛使用的开源可视化库,为我们提供了丰富的图表类型和灵活的配 ...

  5. vue03-directives 指令

    directives 指令 v-for 循环 v-on:click 点击事件 v-model model绑定 methods 方法 const app = new Vue({ el : '#app', ...

  6. CloudQuery, 一款基于WEB的数据库客户端测试(转载自杨建荣的工作笔记)

    CloudQuery, 一款基于WEB的数据库客户端测试 对于数据库客户端的使用,一直以来都有一些困扰,我想对很多人来说都或多或少会有: 1)多种数据库的客户端软件使用方式是独立的,几乎不存在交集 2 ...

  7. CVE-2021-21311 服务器端请求伪造(SSRF)漏洞 (复现)

    执行docker compose up -d启动容器 访问靶机ip:8080端口即为成功 接下来触发漏洞 数据库类型选择ElasticSearch 服务器地址填入你的靶机ip:8000,同时在靶机执行 ...

  8. 基于Blazor实现的简易进销存管理系统

    本文主要介绍如何使用Known开发框架来开发Blazor项目,下面我们用简易进销存管理系统作为示例来分析和设计,文中的代码为关键示例代码,不能直接运行,如要运行查看效果,可在码云上下载完整项目源码运行 ...

  9. 《算法导论》笔记--归并排序 & 算法原理

    归并排序 算法原理: 现在还是沿用牌堆的比喻: 一共两个操作: 1.分解: 现在我们将牌分为两堆,对其中的每一堆都进行 '分为两堆' 这个操作,直到单个堆的元素只有一个 此时每个牌堆都是有序的 2.合 ...

  10. springboot的自动装配

    SpringBoot自动装配        Spring框架提供了IOC的功能实现对所有的javabean进行装配,当时使用的xml文件        提供bean配置完成注入行为.        在 ...