记录 | 关于陪伴型交互AI的一些探讨
关于陪伴型交互AI的一些探讨
怎么说呢主要是发布下关于自己关于AI VTuber的开发进展
前言
目前的化对整体内容进行了局部的优化和更新,并更新到了v0.5.0版本!【好累啊,都没什么热情了】
整体架构已经初步具备了稳定性以及整体工作流的实现
Github项目链接: Interactive-LLM-VTuber (v0.5.0)
同时决定不在继续在v0.5.0的版本上继续更新,并完全开源代码贡献社区发展【详细请看项目开发文档】
该项目从去年十一月开始,耗时10个月,独立开发
虽然但是,实际上只用了1的月半的时间就已经将主要功能开发完成了,但因为js我并不熟悉的问题排查了很长时间才更新到v0.4.2,这个月在AI的帮助下才总算是完成了整个项目的开发。。。。【我要死了,真的】
我只能说,这个项目耗费了我大量的心血,但在前端的问题上也给力我很大的压力【虽然最后找到问题是因为经典的前端和服务器无法主动发起相应的问题,只能等到用户有交互操作才能触发下一步【全部卡在前端的语音交互的模块构建了】】,中间的构建过程中也学到了不少内容,但我总觉得,如果我有能力就能学会更多的东西才对。。。
总之,不搞前端的交互了,就算搞也是去搞搞后端+Unity的功能型实现吧。。。
多余的我也不想多说了,感兴趣可以去项目页看看。
我累了,我得歇会【哈基米燃尽了】
等后面再发发其他项目的构想【除此以为的好像也做了不少好玩的代码全部放在WorkBench了】
后面还得准备比赛和四级
以及 深度学习【理论+实践】+强化学习+脑神经学+分子生物学+病毒+神经网络模拟+生成式认知主体+天才的诞生 的研究和发表【躺】【初步仓库先在Github建好了】
就算累了还得整理资料。。。
啊啊啊啊
睡觉去了

v0.5.0 更新(2025-09-26)
针对稳定性、用户体验和可扩展性的前端和后端优化:
前端
新布局:顶部栏(左侧版本,右侧设置 + MCP 按钮)、左侧聊天记录、底部居中的 GPT 风格输入(圆角文本区域 + 麦克风 + 发送)。
音频自动播放解锁:一个用户手势即可解锁整个会话的音频。
语音流程重做:语音输入现在仅执行 ASR。停止时,前端会轮询/latest_asr、自动填充并发送文本,统一文本→LLM→TTS→播放→历史记录的流程(防止音频播放过时)。
历史 + 流媒体:左侧历史显示“你/AI”;AI 回复以打字机流媒体呈现;在本地保留最后 200 条消息。
思考指示:底部芯片“思考中……”+发送按钮加载状态。
背景设置:设置页面添加背景(颜色/图像)。保存后会触发热重载并立即应用,无需刷新。
MCP 按钮:显示状态(运行/停止)并切换mcp_tool.py进程。
后端
API/路径强化:绝对音频 URL、TTS 后的文件存在检查、固定/audio/目录、TTS 空文本保护。
语音输入重做:录音线程仅写入最后的 ASR 文本;添加GET /latest_asr到前端。
热加载设置:POST /settings自动加载;POST /reload_settings手动加载。传播至 TTS/LLM/系统提示/音频文件夹。
MCP 集成:GET /mcp/status、POST /mcp/start、POST /mcp/stop来控制mcp_tool.py。
如何使用(重点)
开始:python server.py然后访问http://127.0.0.1:5000/。
文本:输入并按发送/回车键。
语音:单击麦克风开始,再次单击停止;识别的文本自动发送。
设置:调整 TTS/LLM/背景并保存 - 无需重启即可热加载。
MCP:通过右上角的按钮切换。
记录 | 关于陪伴型交互AI的一些探讨的更多相关文章
- CozyRSS开发记录19-窗口标题栏交互
CozyRSS开发记录19-窗口标题栏交互 1.谈谈对mvvm解耦的看法 在使用mvvm时,如何操作窗口,这是一个问题.这个问题的关键点是:mvvm是把view和viewmodel解耦了的,很多写法一 ...
- SpringMVC学习记录七——sjon数据交互和拦截器
21 json数据交互 21.1 为什么要进行json数据交互 json数据格式在接口调用中.html页面中较常用,json格式比较简单,解析还比较方便. 比如:webservi ...
- 【第7篇】AI语音交互原理介绍
本章主要介绍AI语音交互的原理,包括语音交互的流程以及各流程节点所涉及的相关知识,如语音采集.语音识别.自然语言处理.语音合成等. 2.1 AI语音交互 AI语音交互通俗点说就是人与机器间进行语音理解 ...
- firefox 扩展开发笔记(三):高级ui交互编程
firefox 扩展开发笔记(三):高级ui交互编程 前言 前两篇链接 1:firefox 扩展开发笔记(一):jpm 使用实践以及调试 2:firefox 扩展开发笔记(二):进阶开发之移动设备模拟 ...
- 大型情感类电视连续剧--Android高德之旅(3)地图交互
总要说两句 前两篇讲到了地图的基础显示和地图类型,今天来记录下高德地图交互相关的设置.地图的绘制分很多层,层级的显示需要根据不同的场景来设置.地图的触摸事件也很丰富,有单击.双击.单指拖拽.双指拖拽. ...
- (转)iOS Wow体验 - 第六章 - 交互模型与创新的产品概念(2)
本文是<iOS Wow Factor:Apps and UX Design Techniques for iPhone and iPad>第六章译文精选的第二部分,其余章节将陆续放出.上一 ...
- 一款APP的交互文档从撰写到交付
我第一份工作的设计总监是前百度设计师,34岁,一线设计12年:今年聊天说转了产品总监,如今39岁还活跃在行业中…… 我第二份工作的部门总监是前腾讯工程师,38岁,一线开发14年:2年前在Q群里跟我们说 ...
- 象棋AI算法(二)
原文大神是用html5+js写的关于象棋AI的博客,里面重点讲了棋子的着法,自己设计的评估函数和简单的Minmax理论,没有具体的讲搜索算法,本文是对原文的学习和分析补充 一,棋子的着法com.byl ...
- [转]象棋AI算法(二)
本文转自:http://blog.csdn.net/u012723995/article/details/47143569 参考文献:http://bbs.blueidea.com/thread-30 ...
- 未来图书-需求分析——脑机接口、VR、AI推荐系统
个人比较喜欢科幻作品,也常常畅想未来.. "书"作为几千年来人类文明信息载体,必然会不断演变.. 文荟宿舍墙上贴着Elon Musk的海报,向往像他一样能够在有限的生命中用极致的想 ...
随机推荐
- Java程序的代码保护:从混淆到虚拟化加固的技术演进
一.Java语言的保护困局 Java作为诞生于1991年的经典编程语言,凭借"一次编译,到处运行"的跨平台特性和成熟的生态体系,持续占据TIOBE排行榜前列.其核心机制是将源码编译 ...
- win10专业版点击右键无法弹出菜单的问题
一位雨林木风系统的小伙伴遇到在win10专业版电脑里面点击鼠标右键没有弹出菜单,想点击刷新都没办法了,应该怎么解决呢?接下来,雨林木风小编就来分享具体的处理方法,一起来看看吧. 如果 Windows ...
- 多模态“卷王”阶跃星辰:如何利用 JuiceFS 打造高效经济的大模型存储平台
在业界有"多模态卷王"之称的阶跃星辰,自研的 22 款基础模型中有 16 款为多模态模型,覆盖文字.语音.图像.视频.音乐与推理等多个方向.为支撑多模态模型的研发与落地,团队在基础 ...
- 如何在FastAPI中让后台任务既高效又不会让你的应用崩溃?
扫描二维码关注或者微信搜一搜:编程智域 前端至全栈交流与成长 发现1000+提升效率与开发的AI工具和实用程序:https://tools.cmdragon.cn/ (一)BackgroundTask ...
- RFX2401C 2.4G射频放大电路
RFX2401C RFX2401C 是一个2.4 GHz频段射频放大芯片, 尺寸只有3mm*3mm, qfn16封装, 单芯片集成PA和LNA, 外围电路简单, 在带功率放大的nrf24l01模块以及 ...
- 最近Vibe Coding的经验总结
大家好,我是 Immerse,一名独立开发者.内容创作者. 关注公众号:#沉浸式趣谈,获取最新文章(更多内容只在公众号更新) 个人网站:https://yaolifeng.com 也同步更新. 转载请 ...
- Oracle应用之批量递增更新数据脚本
需求:更新用户表的工号,格式为"GD1,GD2,..."的格式,如果有数据取最大值再递增 E1:先查询出是否有数据,有数据取最大值再递增,使用nvl函数 /* 查询max值*/ s ...
- 【极客大挑战2023】- Re -点击就送的逆向题 WriteUp
这道题给了一个.s文件 解决方案有两个: 1.利用gcc编译成可执行文件,然后反编译生成伪代码 2.直接分析汇编(我不会...) 1.利用gcc编译成可执行文件 linux执行gcc -o 1.s 1 ...
- BI大屏自适应的构建
对于大屏自适应,网上有基于Vue编写的大屏自适应逻辑代码,本文讲解如何在一个初始化大屏的页面中使用自适应逻辑代码,以及如何解决自适应后大屏左右两边留白的问题. 首先,在编写的初始化html文件中,需要 ...
- Neor Profile SQL is the solution for developers wanting to profile the MySQL queries. This software allows the tracking of all queries to MySQL server from your application or website.
The profiler features Neor Profile SQL is the solution for developers wanting to profile the MySQL q ...