音频克隆:对话文本到口语对话生成MOSS-TTSD
之前介绍过几个音频克隆的可以项目:
CosyVoice:https://www.cnblogs.com/cj8988/p/18975495
IndexTTS:https://www.cnblogs.com/cj8988/p/18973016
GPT-SoVITS:https://www.cnblogs.com/cj8988/p/18962212
IndexTTs-多人:https://www.cnblogs.com/cj8988/p/18973609
本章在介绍一个多人对话的(两人对话)开源项目(8GPU可以跑):MOSS-TTSD
亮点:
高度富有表现力的对话语音:MOSS-TTSD 基于统一的语义声学神经音频编解码器、预先训练的大型语言模型、数百万小时的 TTS 数据以及 40 万小时的合成和真实对话语音,可生成具有自然对话韵律的高度富有表现力、类似人类的对话语音。
双人语音克隆:MOSS-TTSD 支持零样本双人语音克隆,并可根据对话脚本生成具有准确说话人切换的对话语音。
中英双语支持:MOSS-TTSD 能够以中文和英文生成极具表现力的语音。
长篇语音生成:得益于低比特率编解码器和训练框架的优化,MOSS-TTSD 已经可以进行长篇语音生成的训练。
完全开源和商业就绪:MOSS-TTSD 及其未来更新将完全开源并支持免费商业使用。
下载安装:
开源地址:https://github.com/OpenMOSS/MOSS-TTSD
模型下载:https://huggingface.co/fnlp/XY_Tokenizer_TTSD_V0/tree/main
模型存放位置在现在的文件夹下:MOSS-TTSD\XY_Tokenizer\weights\

安装:
进入window的虚拟环境conda中:
创建环境:
conda create -n moss_ttsd python=3.10 激活环境:
conda activate moss_ttsd 安装:
pip install -r requirements.txt 加速:这个先使用下面的命名安装,如果成功那就皆大欢喜
#pip install flash-attn
如果flash-attn安装失败,就不用折腾了,我用了很多方法好像都没有成功,所以修改代码,不使用flash-attn。
修改generation_utils.py:找到load_model()函数
将参数默认值修改一下 attn_implementation="flash_attention_2"
修改为attn_implementation="sdpa"
运行:python gradio_demo.py
第一次运行时会下载模型:fnlp/MOSS-TTSD-v0.5,需要很长的时间。

下载完成后,浏览器访问:http://127.0.0.1:7860/
注意,我试过Single单音频支持不太好(我的音频只有一个人说话,估计两个人说话还是可以的),所以这里直接使用两个音频进行实验。

结果:
| 音频1 | 音频2 | 合成音频 |
| 你的浏览器不支持 audio 标签。 | 你的浏览器不支持 audio 标签。 | 你的浏览器不支持 audio 标签。 |
音频克隆:对话文本到口语对话生成MOSS-TTSD的更多相关文章
- Galgame引擎编写,实现对话文本显示
class cTalk { public: cTalk(); ~cTalk(); void Init(); void Shutdown(); void SetSpeed(int speed); voi ...
- [微信小程序]聊天对话(文本,图片)的功能(完整代码附效果图)
废话不多说, 先上图: <!--pages/index/to_news/to_news.wxml--> <view class='tab'> <view class='l ...
- Python统计excel表格中文本的词频,生成词云图片
import xlrd import jieba import pymysql import matplotlib.pylab as plt from wordcloud import WordClo ...
- jquery easyui 日历控件和文本框结合使用生成日期
html部分---等待接收所选日期的文本框 <td> <input name='input_date' required class='easyui-textbox' id='xiw ...
- Vue +WebSocket + WaveSurferJS 实现H5聊天对话交互
引言 在与实现了语音合成.语义分析.机器翻译等算法的后端交互时,页面可以设计成更为人性化.亲切的方式.我们采用类似于聊天对话的实现,效果如下: 智能客服(输入文本,返回引擎处理后的文本结果) 语音合成 ...
- 《花雕学AI》17:关注提示工程—本世纪最重要的技能可能就是与AI人工智能对话
本文目录与主要结构 引言:介绍提示工程的概念和背景,说明为什么它是本世纪最重要的技能之一. 正文: 一.提示工程的基本原理和方法:介绍什么是提示.如何设计和优化提示.如何使用提示与语言模型进行交互. ...
- 软工+C(10): 团队项目[NABCD] - 对话式编辑
上一篇:助教指南,持续更新... 下一篇:从命令行开始逐步培养编程能力(Java) 动机(Motivation) Eating your own dog food, also called dogfo ...
- 百度大脑UNIT3.0智能对话技术全面解析
智能客服.智能家居.智能助手.智能车机.智能政务……赋予产品智能对话能力是提升产品智能化体验.高效服务的重要手段,已经开始被越来越多的企业关注并布局.然而,智能对话系统搭建涉及NLP.知识图谱.语音等 ...
- OpenAI的离线音频转文本模型 Whisper 的.NET封装项目
whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识. Whisper系统所提供的自动语音 ...
- 如何生成文本: 通过 Transformers 用不同的解码方法生成文本
简介 近年来,随着以 OpenAI GPT2 模型 为代表的基于数百万网页数据训练的大型 Transformer 语言模型的兴起,开放域语言生成领域吸引了越来越多的关注.开放域中的条件语言生成效果令人 ...
随机推荐
- Issue: Class com.sun.tools.javac.tree.JCTree$JCImport does not have member field 'com.sun.tools.javac.tree.JCTree qualid'
问题: Fatal error compiling: java.lang.NoSuchFieldError: Class com.sun.tools.javac.tree.JCTree$JCImpor ...
- DPDI(Dispatch PDI)kettle调度管理平台基础版安装部署说明
DispatchPDI下载 DPDI online部署包下载地址: Windows: http://files.pizzalord.site/api/public/dl/7Tnq6ScE/releas ...
- 一、Java语言介绍
1.硬件知识介绍 2.常用dos命令以及快捷键 1 /** 2 *@desc: 复习 3 *@Description: 4 * dir:列出当前文件目录下的所有文件; 5 * md:创建一个新目录; ...
- 仿EXCEL插件,智表ZCELL产品V2.0 版本发布,优化全键盘操作,增加JSON格式导入导出功能
详细请移步 智表(ZCELL)官网www.zcell.net 更新说明 这次更新主要应用户要求,主要一方面重构了底层,优化了键盘操作,支持全键盘录入,另一方面增加了JSON格式的导入导出,支持终端用 ...
- FastAPI-请求参数与验证
最近想搞一下接口, 希望能简单上手, 前后端分离, 大致看了一遍 SpringBoot, Gin, NodeJs, Flask, Django, FastAPI 等, 感觉还是用 Python 语言来 ...
- C#之Bitmap
SetPixel和GetPixel private void btnC_Click(object sender, RoutedEventArgs e) { OpenFileDialog dia = n ...
- L2-2、示范教学与角色扮演:激发模型"模仿力"与"人格"
一.Few-shot 教学的核心原理与优势 在与大语言模型交互时,Few-shot(少样本)教学是一种强大的提示技术.其核心原理是通过提供少量示例,引导模型理解我们期望的输出格式和内容风格. Few- ...
- 对比Jira/禅道后,我们为什么选择Leangoo做敏捷项目管理?
一.敏捷团队的3大隐形痛点 我曾带领过一个6人的Scrum团队,迭代经常遇到: 需求变更黑洞:客户口头需求未及时同步,开发完成后才发现理解偏差(案例:某次迭代因此浪费32人日) 进度监控盲区:用Exc ...
- IntelliJ IDEA 2023.1 破解教程mac,windows,linux均适用/JetBrains产品全版本激活
前言 该激活方式不限于IDEA,同样也适用于JetBrains 全家桶的所有工具, 包括 IntelliJ IDEA.Pycharm.WebStorm.PhpStorm.AppCode.Datagri ...
- 洛谷 P3268 [JLOI2016]圆的异或并
洛谷 P3268 [JLOI2016]圆的异或并 题目描述 在平面上有两两不相交的\(n\)个圆,即其关系只有相离和包含.求这些圆的异或面积并. 异或面积并为:当一片区域被奇数个圆包含则计算其面积,否 ...