音频克隆：对话文本到口语对话生成MOSS-TTSD


之前介绍过几个音频克隆的可以项目：
CosyVoice：https://www.cnblogs.com/cj8988/p/18975495
IndexTTS：https://www.cnblogs.com/cj8988/p/18973016
GPT-SoVITS：https://www.cnblogs.com/cj8988/p/18962212

IndexTTs-多人：https://www.cnblogs.com/cj8988/p/18973609

本章在介绍一个多人对话的(两人对话)开源项目(8GPU可以跑)：MOSS-TTSD

亮点：

高度富有表现力的对话语音：MOSS-TTSD 基于统一的语义声学神经音频编解码器、预先训练的大型语言模型、数百万小时的 TTS 数据以及 40 万小时的合成和真实对话语音，可生成具有自然对话韵律的高度富有表现力、类似人类的对话语音。
双人语音克隆：MOSS-TTSD 支持零样本双人语音克隆，并可根据对话脚本生成具有准确说话人切换的对话语音。
中英双语支持：MOSS-TTSD 能够以中文和英文生成极具表现力的语音。
长篇语音生成：得益于低比特率编解码器和训练框架的优化，MOSS-TTSD 已经可以进行长篇语音生成的训练。
完全开源和商业就绪：MOSS-TTSD 及其未来更新将完全开源并支持免费商业使用。

下载安装：

开源地址：https://github.com/OpenMOSS/MOSS-TTSD

模型下载：https://huggingface.co/fnlp/XY_Tokenizer_TTSD_V0/tree/main
模型存放位置在现在的文件夹下:MOSS-TTSD\XY_Tokenizer\weights\

安装：
进入window的虚拟环境conda中：

创建环境：

conda create -n moss_ttsd python=3.10

激活环境：

conda activate moss_ttsd

安装：

pip install -r requirements.txt

加速：这个先使用下面的命名安装，如果成功那就皆大欢喜

#pip install flash-attn


如果flash-attn安装失败，就不用折腾了，我用了很多方法好像都没有成功，所以修改代码，不使用flash-attn。

修改generation_utils.py：找到load_model()函数
将参数默认值修改一下 attn_implementation="flash_attention_2"
修改为attn_implementation="sdpa"

运行：python gradio_demo.py


第一次运行时会下载模型：fnlp/MOSS-TTSD-v0.5，需要很长的时间。

下载完成后，浏览器访问：http://127.0.0.1:7860/

注意，我试过Single单音频支持不太好(我的音频只有一个人说话，估计两个人说话还是可以的)，所以这里直接使用两个音频进行实验。

结果：

音频1	音频2	合成音频
你的浏览器不支持 audio 标签。	你的浏览器不支持 audio 标签。	你的浏览器不支持 audio 标签。

音频克隆：对话文本到口语对话生成MOSS-TTSD的更多相关文章

Galgame引擎编写，实现对话文本显示
class cTalk { public: cTalk(); ~cTalk(); void Init(); void Shutdown(); void SetSpeed(int speed); voi ...
[微信小程序]聊天对话(文本,图片)的功能(完整代码附效果图)
废话不多说, 先上图:  <view class='tab'> <view class='l ...
Python统计excel表格中文本的词频，生成词云图片
import xlrd import jieba import pymysql import matplotlib.pylab as plt from wordcloud import WordClo ...
jquery easyui 日历控件和文本框结合使用生成日期
html部分---等待接收所选日期的文本框 <td> <input name='input_date' required class='easyui-textbox' id='xiw ...
Vue +WebSocket + WaveSurferJS 实现H5聊天对话交互
引言在与实现了语音合成.语义分析.机器翻译等算法的后端交互时,页面可以设计成更为人性化.亲切的方式.我们采用类似于聊天对话的实现,效果如下: 智能客服(输入文本,返回引擎处理后的文本结果) 语音合成 ...
《花雕学AI》17：关注提示工程—本世纪最重要的技能可能就是与AI人工智能对话
本文目录与主要结构引言:介绍提示工程的概念和背景,说明为什么它是本世纪最重要的技能之一. 正文: 一.提示工程的基本原理和方法:介绍什么是提示.如何设计和优化提示.如何使用提示与语言模型进行交互. ...
软工+C(10): 团队项目[NABCD] - 对话式编辑
上一篇:助教指南,持续更新... 下一篇:从命令行开始逐步培养编程能力(Java) 动机(Motivation) Eating your own dog food, also called dogfo ...
百度大脑UNIT3.0智能对话技术全面解析
智能客服.智能家居.智能助手.智能车机.智能政务……赋予产品智能对话能力是提升产品智能化体验.高效服务的重要手段,已经开始被越来越多的企业关注并布局.然而,智能对话系统搭建涉及NLP.知识图谱.语音等 ...
OpenAI的离线音频转文本模型 Whisper 的.NET封装项目
whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识. Whisper系统所提供的自动语音 ...
如何生成文本: 通过 Transformers 用不同的解码方法生成文本
简介近年来,随着以 OpenAI GPT2 模型为代表的基于数百万网页数据训练的大型 Transformer 语言模型的兴起,开放域语言生成领域吸引了越来越多的关注.开放域中的条件语言生成效果令人 ...

随机推荐

应对海量数据挑战，如何基于Euro NCAP标准开展高效智驾测试与评估？
一.前言随着自动驾驶技术的快速发展,庞大的测试数据和复杂的场景需求为性能与安全评估带来了巨大挑战.如何高效管理海量数据.挖掘关键场景,并满足以Euro NCAP(European New Car A ...
Linux内核模块开发（简单）
Linux系统为应用程序提供了功能强大且容易扩展的API,但在某些情况下,这还远远不够.与硬件交互或进行需要访问系统中特权信息的操作时,就需要一个内核模块. Linux内核模块是一段编译后的二进制代码 ...
Nim 概念 Concept 对性能的影响
Nim 概念 Concept 对性能的影响继上一篇文章<C# 泛型编译特性对性能的影响>后,我又研究了 Nim 语言相关的设计,由于 Nim 语言与 C# 语言有些差异,比如Nim 没有 ...
C#/.NET/.NET Core技术前沿周刊 | 第 36 期（2025年4.21-4.27）
前言 C#/.NET/.NET Core技术前沿周刊,你的每周技术指南针!记录.追踪C#/.NET/.NET Core领域.生态的每周最新.最实用.最有价值的技术文章.社区动态.优质项目和学习资源等. ...
看完这章你也会黑盒edu通杀
负责声明: 请勿利用文章内的相关技术从事非法测试,由于传播.利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关.该文章仅供学习用途 ...
【记录】VScode｜两种缩放快捷键的功能和开启方式（Ctrl+/-，Ctrl滚轮）
1 面板缩放快捷键:Ctrl+'+'/'-'. 2 滚轮缩放字体快捷键:Ctrl+滚轮开启方式:如下图,打开设置,搜索zoom,勾选. 更多快捷键:Ctrl+K Ctrl+S打开快捷键设置(或左 ...
【记录】Linux｜服务器一些常用指令
文章目录 1 查看显卡 2 解决存储空间不足 3 挂载和卸载磁盘 4 安装conda虚拟环境 5 后台运行程序方法1:使用nohup 方法2:使用screen 6 PyCharm专业版远程连接服务器 ...
QtWidget项目-仿腾讯QQ音乐
本博客主要介绍本人写的个人项目 - QtWidget5 仿腾讯QQ音乐项目. 效果演示项目详情源码 Gitee地址:https://gitee.com/run-little-peach/my-qq ...
【SpringBoot异步导入Excel实战】从设计到优化的完整解决方案
SpringBoot异步导入Excel实战:从设计到优化的完整解决方案一.背景与需求在企业级应用中,Excel导入是常见需求.当导入数据量较大时,同步处理可能导致接口阻塞,影响用户体验.本文结合S ...
ASP.NET Core知识积累
1.[HttpGet(Name="xxxx")] 当在 ASP.NET Core 中的控制器中使用 [HttpGet(Name = "GetWeatherForecast ...

音频克隆：对话文本到口语对话生成MOSS-TTSD

音频克隆：对话文本到口语对话生成MOSS-TTSD的更多相关文章

随机推荐

热门专题