音频克隆阿里版-CosyVoice
前面介绍过了音频克隆
IndexTTS:https://www.cnblogs.com/cj8988/p/18973016
ComfyUI_IndexTTS: https://www.cnblogs.com/cj8988/p/18973609
GPT-SoVITS:https://www.cnblogs.com/cj8988/p/18962212
今天再介绍要给音频克隆的开源工具:https://github.com/FunAudioLLM/CosyVoice

CosyVoice 是阿里云通义语音实验室研发的新一代生成式语音大模型,旨在提供高度拟人化、自然流畅的语音合成体验。
它将文本理解和语音生成技术深度融合,能够精准解析并诠释各种文本内容,将其转化为如同真人发声般的自然语音。
多样化的推理模式:
预训练音色: 提供多种预设的音色供用户选择,满足不同场景下的个性化需求(例如新闻播报、故事讲述等)。
3s 极速复刻 (Zero-shot Voice Cloning): 仅需 3 秒的参考音频,就能快速克隆出特定说话人的音色,并用这个音色合成任意文本。这极大地降低了音色定制的门槛。
跨语种复刻 (Cross-lingual Voice Cloning): 能够使用一种语言的语音样本来合成另一种语言的文本,同时保留原始说话人的音色和部分韵律特征。这是一个非常强大的功能,尤其适用于多语言内容创作。
自然语言控制 (Instructed Voice Generation): 允许用户通过自然语言描述(如“用高兴的语气说”、“语速快一点”)来控制语音的风格、情感、语速、音调等,提供了更直观和灵活的控制方式。
多语言和混合语言支持: 除了中文外,还支持英文、日文、韩文以及多种中文方言(粤语、四川话、上海话、天津话、武汉话等),并支持跨语种和混合语言场景下的零样本语音克隆
安装:
代码下载:https://github.com/FunAudioLLM/CosyVoice
#虚拟环境搭建
conda create -n cosyvoice -y python=3.10 conda activate cosyvoice pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
#模型下载,这里下载最新的2.0模型 mkdir -p pretrained_models #也可手动下载,然后放入相应位置就行 pretrained_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
#运行:
python webui.py
可能出现的问题:没有找到cosyvoice.yaml。
修改一下:cosyvoice.py 中 __init__() 大约34行:添加一个
if not os.path.exists(model_dir):
model_dir = snapshot_download(model_dir)
hyper_yaml_path = '{}/cosyvoice.yaml'.format(model_dir)
if not os.path.exists(hyper_yaml_path):
hyper_yaml_path = '{}/cosyvoice2.yaml'.format(model_dir)

音频克隆阿里版-CosyVoice的更多相关文章
- 阿里版ChatGPT:通义千问pk文心一言
随着 ChatGPT 热潮卷起来,百度发布了文心一言.Google 发布了 Bard,「阿里云」官方终于也宣布了,旗下的 AI 大模型"通义千问"正式开启测试! 申请地址:http ...
- 如何使用pycharm克隆阿里云项目
我们回到PyCharm刚打开时的界面,如图1-1所示: 点击"Check out from Version Control" => "Git",如图1 ...
- 使用PYaudio录制音频和视频(自己)
参考:https://blog.csdn.net/zhaoyun_zzz/article/details/84341801 音频录制:简洁版 import pyaudioimport waveimpo ...
- 一个高级的J2E工程师需要面对MySQL要有那些基本功夫呢<上>
1. MySQL的架构介绍1.1 MySQL简介: MySQL是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,目前属于Oracle公司. MySQL是一种关联数据库管理系统,将数据保存在不 ...
- 扫描二维码自动识别手机系统(Android/IOS)
移动互联网发展迅速,各种APP的开发都会推出多个版本(多终端),比如:iPhone版.iPad版.Android版.有些APP还会考虑覆盖到多个国家(国际化),比如:中文版.英文版.日文版.韩文版等. ...
- 面向GC的Java编程
转自http://hellojava.info/?p=341 HelloJava微信公众账号网站 面向GC的Java编程 Leave a reply 这是内部一个同事(沐剑)写的文章,国外有一家专门做 ...
- iPhone APP 扫码下载
移动互联网发展迅速,各种APP的开发都太疯狂了,一般稍大点儿的应用,都会准备多个版本,比如:iPhone版.iPad版.Android版,我们姑且称之为:终端适配. 业务做的再大点儿的,APP还会考虑 ...
- Java之JSON数据
特别注意:使用JSON前需要导包 操作步骤地址:http://blog.csdn.net/baidu_37107022/article/details/70876993 1.定义 JSON(JavaS ...
- Minikube体验
本文的环境如下: 操作系统: Mac OSX EI Caption Docker:Docker version 18.03.1-ce, build 9ee9f40 Minikube:minikube ...
- Android 虚拟现实(virtual reality)入门指南
入门指南 本文档介绍怎样使用实验性的 Cardboard SDK for Android 创建您自己的虚拟实境 (VR) 体验. Android 演示版应用:Treasure Hunt 本教程中的代码 ...
随机推荐
- MySql字符集从utf8升级到utf8mb4说明和实现方式[详细]
起源,项目中出现了异常,Message:Incorrect string value: '\xF0\x9F\x87\xB5\xF0\x9F...' for column 'signature' at ...
- ESP32系列,IDF官方实例——外设:通用GPIO
示例位于 \examples\peripherals\gpio\generic_gpio 文件夹内 GPIO示例逻辑简单,直接看代码理解. /* GPIO示例 此示例代码位于公共域(或CC0许可,由您 ...
- 如何基于 Kestrel 实现 socks5 代理
前言 之前做了个轮子NZOrz, 本来打算慢慢参照Kestrel和Yarp长久地写着玩 奈何川普上台,关税,订婚案,自身和钱包等等各种乐子层出不穷,无暇慢悠悠地写轮子玩 还有有些盆友也想知道能否直接使 ...
- Maven版本号管理规范:为何父POM是统一依赖版本的最佳实践?
结论先行 在Maven多模块项目中,依赖的版本号应集中定义在父POM的<dependencyManagement>中,子模块通过继承父POM来引用版本号,通常无需在子POM中重复声明.这能 ...
- idea创建类时默认添加头部注释信息
- 【经验】Git|Windows下如何管理和部署多个Git账号的SSH密钥文件
生成 SSH 密钥 先打开一个git窗口,生成ssh密钥. 如果打开的不是git窗口,而是cmd窗口,则需要先切换到C:\Users\用户名\.ssh目录下. 下面这条指令的your_email和yo ...
- Pandas 清除 Excel 特殊字符
清除 Excel 特殊字符 主要是为了做一个笔记, 用 遍历 DataFrame 用正则匹配特殊字符并替换. 是上个月初的项目了, 其中有个将 Excel 传入数据库的时候, 发现有特殊字符, 很奇怪 ...
- 实现C++智能指针
在对象切片一文中,提到可使用充当智能指针的类shape_wrapper,可以简化资源的管理,从根本上消除资源(包括内存)泄漏的可能性,本节来看下如何将shape_wrapper改造成一个完整的智能指针 ...
- 使用libdivide加速整数除法运算
在x86和ARM平台上,整数除法是相对较慢的操作.不巧的是除法在日常开发中使用频率并不低,而且还有一些其他常用的运算依赖于除法操作,比如取模.因此频繁的除法操作很容易成为程序的性能瓶颈,尤其是在一些数 ...
- 干货分享:Dify中4种核心变量详解!
在 Dify 工作流(Workflow 和 Chatflow)的实现中,"变量"做为最基础.最核心的组件发挥着不可或缺的作用,因为它承载了不同节点间数据传递的作用. 也就是说,我们 ...