关于陪伴型交互AI的一些探讨

怎么说呢主要是发布下关于自己关于AI VTuber的开发进展

前言

目前的化对整体内容进行了局部的优化和更新,并更新到了v0.5.0版本!【好累啊,都没什么热情了】

整体架构已经初步具备了稳定性以及整体工作流的实现

Github项目链接: Interactive-LLM-VTuber (v0.5.0)

同时决定不在继续在v0.5.0的版本上继续更新,并完全开源代码贡献社区发展【详细请看项目开发文档】

该项目从去年十一月开始,耗时10个月,独立开发

虽然但是,实际上只用了1的月半的时间就已经将主要功能开发完成了,但因为js我并不熟悉的问题排查了很长时间才更新到v0.4.2,这个月在AI的帮助下才总算是完成了整个项目的开发。。。。【我要死了,真的】

我只能说,这个项目耗费了我大量的心血,但在前端的问题上也给力我很大的压力【虽然最后找到问题是因为经典的前端和服务器无法主动发起相应的问题,只能等到用户有交互操作才能触发下一步【全部卡在前端的语音交互的模块构建了】】,中间的构建过程中也学到了不少内容,但我总觉得,如果我有能力就能学会更多的东西才对。。。

总之,不搞前端的交互了,就算搞也是去搞搞后端+Unity的功能型实现吧。。。

多余的我也不想多说了,感兴趣可以去项目页看看。

我累了,我得歇会【哈基米燃尽了】

等后面再发发其他项目的构想【除此以为的好像也做了不少好玩的代码全部放在WorkBench了】

后面还得准备比赛和四级

以及 深度学习【理论+实践】+强化学习+脑神经学+分子生物学+病毒+神经网络模拟+生成式认知主体+天才的诞生 的研究和发表【躺】【初步仓库先在Github建好了】

就算累了还得整理资料。。。

啊啊啊啊

睡觉去了



v0.5.0 更新(2025-09-26)

针对稳定性、用户体验和可扩展性的前端和后端优化:

前端

新布局:顶部栏(左侧版本,右侧设置 + MCP 按钮)、左侧聊天记录、底部居中的 GPT 风格输入(圆角文本区域 + 麦克风 + 发送)。

音频自动播放解锁:一个用户手势即可解锁整个会话的音频。

语音流程重做:语音输入现在仅执行 ASR。停止时,前端会轮询/latest_asr、自动填充并发送文本,统一文本→LLM→TTS→播放→历史记录的流程(防止音频播放过时)。

历史 + 流媒体:左侧历史显示“你/AI”;AI 回复以打字机流媒体呈现;在本地保留最后 200 条消息。

思考指示:底部芯片“思考中……”+发送按钮加载状态。

背景设置:设置页面添加背景(颜色/图像)。保存后会触发热重载并立即应用,无需刷新。

MCP 按钮:显示状态(运行/停止)并切换mcp_tool.py进程。

后端

API/路径强化:绝对音频 URL、TTS 后的文件存在检查、固定/audio/目录、TTS 空文本保护。

语音输入重做:录音线程仅写入最后的 ASR 文本;添加GET /latest_asr到前端。

热加载设置:POST /settings自动加载;POST /reload_settings手动加载。传播至 TTS/LLM/系统提示/音频文件夹。

MCP 集成:GET /mcp/status、POST /mcp/start、POST /mcp/stop来控制mcp_tool.py。

如何使用(重点)

开始:python server.py然后访问http://127.0.0.1:5000/。

文本:输入并按发送/回车键。

语音:单击麦克风开始,再次单击停止;识别的文本自动发送。

设置:调整 TTS/LLM/背景并保存 - 无需重启即可热加载。

MCP:通过右上角的按钮切换。

记录 | 关于陪伴型交互AI的一些探讨的更多相关文章

  1. CozyRSS开发记录19-窗口标题栏交互

    CozyRSS开发记录19-窗口标题栏交互 1.谈谈对mvvm解耦的看法 在使用mvvm时,如何操作窗口,这是一个问题.这个问题的关键点是:mvvm是把view和viewmodel解耦了的,很多写法一 ...

  2. SpringMVC学习记录七——sjon数据交互和拦截器

    21       json数据交互 21.1      为什么要进行json数据交互 json数据格式在接口调用中.html页面中较常用,json格式比较简单,解析还比较方便. 比如:webservi ...

  3. 【第7篇】AI语音交互原理介绍

    本章主要介绍AI语音交互的原理,包括语音交互的流程以及各流程节点所涉及的相关知识,如语音采集.语音识别.自然语言处理.语音合成等. 2.1 AI语音交互 AI语音交互通俗点说就是人与机器间进行语音理解 ...

  4. firefox 扩展开发笔记(三):高级ui交互编程

    firefox 扩展开发笔记(三):高级ui交互编程 前言 前两篇链接 1:firefox 扩展开发笔记(一):jpm 使用实践以及调试 2:firefox 扩展开发笔记(二):进阶开发之移动设备模拟 ...

  5. 大型情感类电视连续剧--Android高德之旅(3)地图交互

    总要说两句 前两篇讲到了地图的基础显示和地图类型,今天来记录下高德地图交互相关的设置.地图的绘制分很多层,层级的显示需要根据不同的场景来设置.地图的触摸事件也很丰富,有单击.双击.单指拖拽.双指拖拽. ...

  6. (转)iOS Wow体验 - 第六章 - 交互模型与创新的产品概念(2)

    本文是<iOS Wow Factor:Apps and UX Design Techniques for iPhone and iPad>第六章译文精选的第二部分,其余章节将陆续放出.上一 ...

  7. 一款APP的交互文档从撰写到交付

    我第一份工作的设计总监是前百度设计师,34岁,一线设计12年:今年聊天说转了产品总监,如今39岁还活跃在行业中…… 我第二份工作的部门总监是前腾讯工程师,38岁,一线开发14年:2年前在Q群里跟我们说 ...

  8. 象棋AI算法(二)

    原文大神是用html5+js写的关于象棋AI的博客,里面重点讲了棋子的着法,自己设计的评估函数和简单的Minmax理论,没有具体的讲搜索算法,本文是对原文的学习和分析补充 一,棋子的着法com.byl ...

  9. [转]象棋AI算法(二)

    本文转自:http://blog.csdn.net/u012723995/article/details/47143569 参考文献:http://bbs.blueidea.com/thread-30 ...

  10. 未来图书-需求分析——脑机接口、VR、AI推荐系统

    个人比较喜欢科幻作品,也常常畅想未来.. "书"作为几千年来人类文明信息载体,必然会不断演变.. 文荟宿舍墙上贴着Elon Musk的海报,向往像他一样能够在有限的生命中用极致的想 ...

随机推荐

  1. 设计一个gr模块 GNU Radio——Creating Python OOT with gr-modtool

    官方例程 Creating Python OOT with gr-modtool 1.创建OOT模组 返回根目录 cd $HOME 创建名为customModule的out-of-tree (OOT) ...

  2. ETL 是什么?不信你看不懂!--九五小庞

    ETL,全称 Extract-Transform-Load,它是将大量的原始数据经过提取(extract).转换(transform).加载(load)到目标存储数据仓库的过程.ETL 虽然大部分应用 ...

  3. 08Java基础之面向对象

    面向过程&面向对象 面向过程思想 步骤清晰简单,第一步做什么,第二步做什么 面向过程适合处理一些较为简单的问题 面向对象思想 物以类聚,分类的思维模式,思考问题首先会解决问题需要哪些分类,然后 ...

  4. 高效实现 LRU 缓存机制:双向链表与哈希表的结合

    题目: 请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构. 实现 LRUCache 类: LRUCache(int capacity) 以 正整数 作为容量 capacity 初 ...

  5. leedcode 928. 尽量减少恶意软件的传播 II (并查集)

    测试链接:https://leetcode.cn/problems/minimize-malware-spread-ii/ 思路 设置sz,inflect,virus[](该节点是否属于感染节点),f ...

  6. HashMap的基础知识

    if(!chatHistoryMap.containsKey(type)) { chatHistoryMap.put(type,new ArrayList<>()); } List< ...

  7. [题解]P4552 [Poetize6] IncDec Sequence

    P4552 [Poetize6] IncDec Sequence 我们对\(a\)做差分,得到数组\(b\).\(a\)的区间修改,等价于选定\(i,j\in[1,n+1]\),令\(b[i]\lef ...

  8. RTSP转RTMP、FLV、HLS网页无插件视频直播-LiveNVR功能介绍-音频开启

    LiveNVR简介 LiveNVR能够通过简单的摄像机通道配置.存储配置.云平台对接配置.CDN配置等,将统监控行业里面的高清网络摄像机IP Camera.NVR.移动拍摄设备接入到LiveNVR,L ...

  9. 微信小程序端智能项目工程化实践

    作者: vivo 互联网大前端团队- You Chen 本文介绍可以在微信小程序上应用的端智能技术方案,聚焦 TensorFlow.js 推理和微信原生推理,详细讲解这两种方案在项目中的应用过程,为小 ...

  10. U3DFrameWorkDemo:四、资源打包和热更

    代码参考 代码文件参考下述详解的类图,工程参考第零章工程说明 概述 热更新方便用户更新,增加用户的留存量.它依赖打包生成的版本文件. 思路 打包 考虑分包策略,包体太大加载速度慢且可能有无效的内存冗余 ...