之前介绍过几个音频克隆的可以项目:
CosyVoice:https://www.cnblogs.com/cj8988/p/18975495
IndexTTS:https://www.cnblogs.com/cj8988/p/18973016
GPT-SoVITS:https://www.cnblogs.com/cj8988/p/18962212

IndexTTs-多人:https://www.cnblogs.com/cj8988/p/18973609

本章在介绍一个多人对话的(两人对话)开源项目(8GPU可以跑):MOSS-TTSD

亮点:

高度富有表现力的对话语音:MOSS-TTSD 基于统一的语义声学神经音频编解码器、预先训练的大型语言模型、数百万小时的 TTS 数据以及 40 万小时的合成和真实对话语音,可生成具有自然对话韵律的高度富有表现力、类似人类的对话语音。
双人语音克隆:MOSS-TTSD 支持零样本双人语音克隆,并可根据对话脚本生成具有准确说话人切换的对话语音。
中英双语支持:MOSS-TTSD 能够以中文和英文生成极具表现力的语音。
长篇语音生成:得益于低比特率编解码器和训练框架的优化,MOSS-TTSD 已经可以进行长篇语音生成的训练。
完全开源和商业就绪:MOSS-TTSD 及其未来更新将完全开源并支持免费商业使用。

下载安装:

开源地址:https://github.com/OpenMOSS/MOSS-TTSD

模型下载:https://huggingface.co/fnlp/XY_Tokenizer_TTSD_V0/tree/main
模型存放位置在现在的文件夹下:MOSS-TTSD\XY_Tokenizer\weights\

安装:
进入window的虚拟环境conda中:

创建环境:
conda create -n moss_ttsd python=3.10 激活环境:
conda activate moss_ttsd 安装:
pip install -r requirements.txt 加速:这个先使用下面的命名安装,如果成功那就皆大欢喜
#pip install flash-attn

如果flash-attn安装失败,就不用折腾了,我用了很多方法好像都没有成功,所以修改代码,不使用flash-attn。

修改generation_utils.py:找到load_model()函数
将参数默认值修改一下 attn_implementation="flash_attention_2"
修改为attn_implementation="sdpa"

运行:python gradio_demo.py

第一次运行时会下载模型:fnlp/MOSS-TTSD-v0.5,需要很长的时间。

下载完成后,浏览器访问:http://127.0.0.1:7860/

注意,我试过Single单音频支持不太好(我的音频只有一个人说话,估计两个人说话还是可以的),所以这里直接使用两个音频进行实验。

结果:
音频1 音频2 合成音频
你的浏览器不支持 audio 标签。 你的浏览器不支持 audio 标签。 你的浏览器不支持 audio 标签。


音频克隆:对话文本到口语对话生成MOSS-TTSD的更多相关文章

  1. Galgame引擎编写,实现对话文本显示

    class cTalk { public: cTalk(); ~cTalk(); void Init(); void Shutdown(); void SetSpeed(int speed); voi ...

  2. [微信小程序]聊天对话(文本,图片)的功能(完整代码附效果图)

    废话不多说, 先上图: <!--pages/index/to_news/to_news.wxml--> <view class='tab'> <view class='l ...

  3. Python统计excel表格中文本的词频,生成词云图片

    import xlrd import jieba import pymysql import matplotlib.pylab as plt from wordcloud import WordClo ...

  4. jquery easyui 日历控件和文本框结合使用生成日期

    html部分---等待接收所选日期的文本框 <td> <input name='input_date' required class='easyui-textbox' id='xiw ...

  5. Vue +WebSocket + WaveSurferJS 实现H5聊天对话交互

    引言 在与实现了语音合成.语义分析.机器翻译等算法的后端交互时,页面可以设计成更为人性化.亲切的方式.我们采用类似于聊天对话的实现,效果如下: 智能客服(输入文本,返回引擎处理后的文本结果) 语音合成 ...

  6. 《花雕学AI》17:关注提示工程—本世纪最重要的技能可能就是与AI人工智能对话

    本文目录与主要结构 引言:介绍提示工程的概念和背景,说明为什么它是本世纪最重要的技能之一. 正文: 一.提示工程的基本原理和方法:介绍什么是提示.如何设计和优化提示.如何使用提示与语言模型进行交互. ...

  7. 软工+C(10): 团队项目[NABCD] - 对话式编辑

    上一篇:助教指南,持续更新... 下一篇:从命令行开始逐步培养编程能力(Java) 动机(Motivation) Eating your own dog food, also called dogfo ...

  8. 百度大脑UNIT3.0智能对话技术全面解析

    智能客服.智能家居.智能助手.智能车机.智能政务……赋予产品智能对话能力是提升产品智能化体验.高效服务的重要手段,已经开始被越来越多的企业关注并布局.然而,智能对话系统搭建涉及NLP.知识图谱.语音等 ...

  9. OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

    whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识. Whisper系统所提供的自动语音 ...

  10. 如何生成文本: 通过 Transformers 用不同的解码方法生成文本

    简介 近年来,随着以 OpenAI GPT2 模型 为代表的基于数百万网页数据训练的大型 Transformer 语言模型的兴起,开放域语言生成领域吸引了越来越多的关注.开放域中的条件语言生成效果令人 ...

随机推荐

  1. fiddler模拟弱网配置

    1.延长加载时间 Rules-cumtomize rules,打开fiddler scripteditor 搜索simulatemodem-更改时间为需要延长加载的时间(单位为毫秒)-保存退出 2.打 ...

  2. 使用PowerShell开发脚本程序进行批量SVN提交

    使用PowerShell开发脚本程序进行批量SVN提交 随着软件开发的不断进步,版本控制系统如Subversion (SVN) 成为了团队协作和代码管理的重要工具.当需要一次性提交大量文件时,手动操作 ...

  3. 代码随想录第七天 | Leecode 454.四数相加II 、383. 赎金信 、15. 三数之和 、18. 四数之和

    Leecode 454. 四数相加II 题目链接:https://leetcode.cn/problems/4sum-ii/ 题目描述 给你四个整数数组 nums1.nums2.nums3 和 num ...

  4. rust程序静态编译的两种方法总结

    1. 概述 经过我的探索,总结了两种rust程序静态编译的方法,理论上两种方法都适用于windows.mac os和linux(mac os未验证),实测方法一性能比方法二好,现总结如下,希望能够帮到 ...

  5. Font Awesome文档使用手册

    Font Awesome 字体为您提供可缩放矢量图标,它可以被定制大小.颜色.阴影以及任何可以用CSS的样式. 使用文档:https://fa4.uihtm.com/ Font Awesome 是一套 ...

  6. 遇到的问题之“使用get请求时,请求参数中存在#导致后端request获取不到值”

    一.问题 使用get请求时,请求参数中存在#导致后端request获取不到值 发出参数带#的请求 后端接收不到SKU的值,连后面platformId的值都没有了 二.原因 1.有些符号[参数包含有特殊 ...

  7. CentOS7.6安装RabbitMQ

    1.CentOS7.6安装RabbitMQ yum install -y socat yum install -y erlang 2.安装rabbitmq yum install rabbitmq-s ...

  8. 第一次blog作业

    1.前言  刚接触面向对象程序设计和开始学习Java编程语言的时候,确实觉得所有的一切都很困难,所有的一切都很陌生.面对全新的概念和编程方式,感觉自己像是进入了一个完全陌生的领域,需要从头开始探索.那 ...

  9. java 腾讯云、阿里云SMS短信工具类

    引入POM依赖 <!-- 腾讯云SMS SDK --> <dependency> <groupId>com.tencentcloudapi</groupId& ...

  10. Huawei Matebook e 2022 安装 archlinux 双系统

    本文同步发布于我的网站 安装之前 wifi 名称修改为英文+数字的,以防之后没法联网 准备好 U 盘并使用 GPT 分区表写入最新的 arch 镜像. 基础安装 开机按 F2 进入 UEFI/BIOS ...