音频克隆阿里版-CosyVoice
前面介绍过了音频克隆
IndexTTS:https://www.cnblogs.com/cj8988/p/18973016
ComfyUI_IndexTTS: https://www.cnblogs.com/cj8988/p/18973609
GPT-SoVITS:https://www.cnblogs.com/cj8988/p/18962212
今天再介绍要给音频克隆的开源工具:https://github.com/FunAudioLLM/CosyVoice

CosyVoice 是阿里云通义语音实验室研发的新一代生成式语音大模型,旨在提供高度拟人化、自然流畅的语音合成体验。
它将文本理解和语音生成技术深度融合,能够精准解析并诠释各种文本内容,将其转化为如同真人发声般的自然语音。
多样化的推理模式:
预训练音色: 提供多种预设的音色供用户选择,满足不同场景下的个性化需求(例如新闻播报、故事讲述等)。
3s 极速复刻 (Zero-shot Voice Cloning): 仅需 3 秒的参考音频,就能快速克隆出特定说话人的音色,并用这个音色合成任意文本。这极大地降低了音色定制的门槛。
跨语种复刻 (Cross-lingual Voice Cloning): 能够使用一种语言的语音样本来合成另一种语言的文本,同时保留原始说话人的音色和部分韵律特征。这是一个非常强大的功能,尤其适用于多语言内容创作。
自然语言控制 (Instructed Voice Generation): 允许用户通过自然语言描述(如“用高兴的语气说”、“语速快一点”)来控制语音的风格、情感、语速、音调等,提供了更直观和灵活的控制方式。
多语言和混合语言支持: 除了中文外,还支持英文、日文、韩文以及多种中文方言(粤语、四川话、上海话、天津话、武汉话等),并支持跨语种和混合语言场景下的零样本语音克隆
安装:
代码下载:https://github.com/FunAudioLLM/CosyVoice
#虚拟环境搭建
conda create -n cosyvoice -y python=3.10 conda activate cosyvoice pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
#模型下载,这里下载最新的2.0模型 mkdir -p pretrained_models #也可手动下载,然后放入相应位置就行 pretrained_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
#运行:
python webui.py
可能出现的问题:没有找到cosyvoice.yaml。
修改一下:cosyvoice.py 中 __init__() 大约34行:添加一个
if not os.path.exists(model_dir):
model_dir = snapshot_download(model_dir)
hyper_yaml_path = '{}/cosyvoice.yaml'.format(model_dir)
if not os.path.exists(hyper_yaml_path):
hyper_yaml_path = '{}/cosyvoice2.yaml'.format(model_dir)

音频克隆阿里版-CosyVoice的更多相关文章
- 阿里版ChatGPT:通义千问pk文心一言
随着 ChatGPT 热潮卷起来,百度发布了文心一言.Google 发布了 Bard,「阿里云」官方终于也宣布了,旗下的 AI 大模型"通义千问"正式开启测试! 申请地址:http ...
- 如何使用pycharm克隆阿里云项目
我们回到PyCharm刚打开时的界面,如图1-1所示: 点击"Check out from Version Control" => "Git",如图1 ...
- 使用PYaudio录制音频和视频(自己)
参考:https://blog.csdn.net/zhaoyun_zzz/article/details/84341801 音频录制:简洁版 import pyaudioimport waveimpo ...
- 一个高级的J2E工程师需要面对MySQL要有那些基本功夫呢<上>
1. MySQL的架构介绍1.1 MySQL简介: MySQL是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,目前属于Oracle公司. MySQL是一种关联数据库管理系统,将数据保存在不 ...
- 扫描二维码自动识别手机系统(Android/IOS)
移动互联网发展迅速,各种APP的开发都会推出多个版本(多终端),比如:iPhone版.iPad版.Android版.有些APP还会考虑覆盖到多个国家(国际化),比如:中文版.英文版.日文版.韩文版等. ...
- 面向GC的Java编程
转自http://hellojava.info/?p=341 HelloJava微信公众账号网站 面向GC的Java编程 Leave a reply 这是内部一个同事(沐剑)写的文章,国外有一家专门做 ...
- iPhone APP 扫码下载
移动互联网发展迅速,各种APP的开发都太疯狂了,一般稍大点儿的应用,都会准备多个版本,比如:iPhone版.iPad版.Android版,我们姑且称之为:终端适配. 业务做的再大点儿的,APP还会考虑 ...
- Java之JSON数据
特别注意:使用JSON前需要导包 操作步骤地址:http://blog.csdn.net/baidu_37107022/article/details/70876993 1.定义 JSON(JavaS ...
- Minikube体验
本文的环境如下: 操作系统: Mac OSX EI Caption Docker:Docker version 18.03.1-ce, build 9ee9f40 Minikube:minikube ...
- Android 虚拟现实(virtual reality)入门指南
入门指南 本文档介绍怎样使用实验性的 Cardboard SDK for Android 创建您自己的虚拟实境 (VR) 体验. Android 演示版应用:Treasure Hunt 本教程中的代码 ...
随机推荐
- 附043.KubeEdge边缘云部署实施方案
目录 KubeEdge介绍 KubeEdge概述 KubeEdge优势 KubeEdge架构 KubeEdge部署 部署依赖 部署规划 主机名配置 变量准备 互信配置 环境预配置 安装keadm 设置 ...
- Go操作MySQL总结
1.下载驱动包 打开GoLand->Terminal,输入:go get github.com/go-sql-driver/mysql 2.编写代码 package mainimport ( & ...
- 华为od机考2025A卷真题 -查找接口成功率最优时间段
题目描述与示例 题目描述 服务之间交换的接口成功率作为服务调用关键质量特性,某个时间段内的接口失败率使用一个数组表示,数组中每个元素都是单位时间内失败率数值,数组中的数值为 0~100 的整数,给定一 ...
- 2025dsfz集训Day6: 数论
DAY6: 数论 \[Designed\ By\ FrankWkd\ -\ Luogu@Lwj54joy,uid=845400 \] 特别感谢 此次课的主讲 - Kwling 快速幂 快速幂是针对快速 ...
- Git错误,Updates were rejected because the tip of your current branch is behind
问题:Updates were rejected because the tip of your current branch is behind 在push代码时,遇到这种问题Updates wer ...
- .NET AI Preview 2 发布:支持 Aspire 与 Qdrant 向量库集成,加速云原生 AI 开发
引言 随着人工智能(AI)技术的迅猛发展,开发者对简单.高效的AI开发工具需求日益增加.微软 .NET 团队最近发布了 .NET AI 模板的 Preview 2 版本,这一更新为开发者带来了诸多令人 ...
- 25年初的cnvd小试
算是一个里程碑吧,第一次尝试获得cnvd证书
- 夸克浏览器PC端功能体验
一.下载安装 可以看到目前PC端仅仅支持windows,不支持Mac和Linux. 二.功能介绍 夸克浏览器果然很简洁.清新,左侧栏提供首页.网盘.工具.快传四个选项,中间是搜索栏,底部是可定制的天气 ...
- WPF后台自动添加控件Demo
xaml <Window x:Class="EBPlugIn2.EBPlugIn2_YJW_13" xmlns="http://schemas.microsoft. ...
- codeup之分数序列求和
Description 有如下分数序列 求出次数列的前20项之和. 请将结果的数据类型定义为double类型. Input 无 Output 小数点后保留6位小数,末尾输出换行. Sample Inp ...