Index-TTS:最逼真的Ai声音克隆
一、IndexTTS介绍
IndexTTS 是一种主要基于 XTTS 和 Tortoise 的 GPT 风格的文本转语音 (TTS) 模型。它能够使用拼音纠正汉字的发音,并通过标点符号控制任何位置的停顿。我们增强了系统的多个模块,包括扬声器条件特征表示的改进,以及集成 BigVGAN2 以优化音频质量。经过数万小时的数据训练,我们的系统实现了最先进的性能,优于当前流行的 TTS 系统,如 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS。

最近IndexTTS发布了最新的TTS-1.5模型,显著的提高了模型的稳定性和在英语语言中的性能表现。IndexTTS-1.5的语音克隆更加真实,语音克隆质量更高了。
项目主页:https://index-tts.github.io/
GitHub:https://github.com/index-tts/index-tts
硬件要求
操作系统:Windows 10/11 64 位,或 Ubuntu 22.04+
CPU:四核
内存:16 GB 及以上
显卡:最低 4 GB 显存即可启动
效果预览
墨彩环
目前最火的动漫是《凡人修仙传》,这里引用《墨彩环·凡尘叹》里面的独白
韩大哥…… 我这一生,终究是没能追上你的脚步。 初见时,你只是个木讷的少年,沉默寡言,却总能在危急时护我周全。我以为,只要我足够努力,终有一天能站在你身旁,哪怕只是远远看着。 可后来才明白,原来这世上,有些人注定是仙,而有些人,只能是凡人。 你教我武功,赠我丹药,可我的灵根……终究是断了仙缘。我不甘心,真的不甘心!为何旁人能踏上长生路,而我却只能困在这凡尘,看着岁月一点点夺走容颜,而你……仍是当年模样。 我曾想,若我不是墨家小姐,若我也能修炼,是否就能陪你走得更远?可这世上,没有如果。 韩大哥,我知你心中大道至上,儿女情长不过是过眼云烟。可我还是会想,若有一日你登临绝巅,是否会偶尔想起,当年那个跟在你身后、唤你“韩大哥”的傻姑娘? 罢了……仙凡有别,本就是天道无情。 只愿来世……我能有灵根,哪怕只是最差的伪灵根,也好过此生,只能仰望你的背影,渐行渐远……
听起来,效果都还不错。
台湾女生
场景:夜市奶茶摊前,女生对着闺蜜抱怨暧昧对象
"吼!你真的有够夸张欸——那个阿诚昨天又已读我!第三次了哦!(吸珍珠奶茶)啊不是说要约我去九份?现在连‘早安’都不传了是怎样?(跺脚)男生都酱紫啦,刚开始超热情,什么‘宝贝睡了吗’、‘吃饭了没’,现在咧?连贴图都懒得丢一个!(翻白眼)" "诶你评评理啦!上次下雨天我特地绕去他公司送伞,结果他同事起哄说‘哇~女朋友喔?’,他居然给我回‘就...朋友啊’!(模仿男生挠头动作)靠北喔~谁跟你是‘就朋友’!我阿嬷泡的乌龙茶他都喝三罐了呀!(戳奶茶杯)" "不管啦!这次他再不主动,我就...我就...(突然手机亮起)等等!他传讯息了!(快速擦手点开)‘在干吗?’...噗!又是这句!(抓头发)每次开场白都一毛一样,到底是有多词穷啦!(突然偷笑)不过...他加了一个爱心emoji欸...(捂脸扭动)啊啊啊,烦死了!我这样是不是很没出息?(戳闺蜜手臂)你快点骂醒我啦!"
这个台湾女生,说话挺可爱的!
二、安装Index-TTS
环境说明
操作系统:windows 11家庭版
python版本:3.13.2
Anaconda:2025.06-0
硬件我已经满足最低需求,注意显卡必须要达到要求。
Microsoft C++ 生成工具
打开链接:https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/
下载生成工具
勾选C++组件

勾选linux c++组件

然后点击安装,等待20分钟左右安装完成。
注意,这个必须要安装,否则安装pynini会报错。
环境设置
1.下载仓库代码
git clone https://github.com/index-tts/index-tts.git
2.安装依赖项
创建一个新的conda环境并安装依赖项:
conda create --prefix D:\file\conda\envs\index-tts python=3.13.2
conda activate D:\file\conda\envs\index-tts
安装PyTorch,提供CUDA指令集架构,用来驱动英伟达显卡。
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
为了避免windows安装pynini遇到错误,通过conda安装pynini
conda install -c conda-forge pynini==2.1.6
pip install WeTextProcessing --no-deps
安装IndexTTS依赖软件包
cd index-tts
pip install -e .
3.下载模型
pip install modelscope
modelscope download --model IndexTeam/IndexTTS-1.5
下载模型完成后,默认在用户目录,比如:C:\Users\xiao\.cache\modelscope\hub\IndexTeam/IndexTTS-1.5
将里面的文件,全部复制到github项目文件夹 index-tts\checkpoints里面。

运行web demo
python webui.py
输出如下:
>> GPT weights restored from: checkpoints\gpt.pth
>> DeepSpeed加载失败,回退到标准推理: No module named 'deepspeed'
See more details https://www.deepspeed.ai/tutorials/advanced-install/
Detected CUDA files, patching ldflags
Emitting ninja build file C:\Users\xiao\Downloads\index-tts-main\indextts\BigVGAN\alias_free_activation\cuda\build\build.ninja...
信息: 用提供的模式无法找到文件。
>> Failed to load custom CUDA kernel for BigVGAN. Falling back to torch. Command '['where', 'cl']' returned non-zero exit status 1.
Reinstall with `pip install -e . --no-deps --no-build-isolation` to prebuild `anti_alias_activation_cuda` kernel.
See more details: https://github.com/index-tts/index-tts/issues/164#issuecomment-2903453206
Removing weight norm...
>> bigvgan weights restored from: checkpoints\bigvgan_generator.pth
2025-08-15 17:00:07,635 WETEXT INFO found existing fst: C:\Users\xiao\Downloads\index-tts-main\indextts\utils\tagger_cache\zh_tn_tagger.fst
2025-08-15 17:00:07,636 WETEXT INFO C:\Users\xiao\Downloads\index-tts-main\indextts\utils\tagger_cache\zh_tn_verbalizer.fst
2025-08-15 17:00:07,636 WETEXT INFO skip building fst for zh_normalizer ...
2025-08-15 17:00:10,108 WETEXT INFO found existing fst: D:\file\conda\envs\my_unsloth_env\Lib\site-packages\tn\en_tn_tagger.fst
2025-08-15 17:00:10,109 WETEXT INFO D:\file\conda\envs\my_unsloth_env\Lib\site-packages\tn\en_tn_verbalizer.fst
2025-08-15 17:00:10,109 WETEXT INFO skip building fst for en_normalizer ...
>> TextNormalizer loaded
>> bpe model loaded from: checkpoints\bpe.model
* Running on local URL: http://127.0.0.1:7860
* To create a public link, set `share=True` in `launch()`.
注意:这里输出的一些警告信息,不用管。
只要能出现http://127.0.0.1:7860,就说明运行成功了。
三、生成语音
墨彩环
打开页面:http://127.0.0.1:7860,效果如下:

上传参考音频,文件: https://res.wx.qq.com/voice/getvoice?mediaid=MzkxNzYzODgwN18yMjQ3NDkxMDAw
输入文章开头的文本
最后点击生成语音

等待10分钟左右,就完成了。
完成后,可以试听,也可以点击右边的下载

播放音频

效果,就是文章开头的展现的。
台湾女声
打开迅雷网盘,https://pan.xunlei.com/s/VOU-NFxruAdJSBAnyq_JPFs7A1?pwd=p5sz
下载音源

解压之后,选择这个

然后上传音源,输入文本
吼!你真的有够夸张欸
那个阿诚昨天又已读我!第三次了哦!
啊,不是说要约我去九份?现在连‘早安’都不传了是怎样?
男生都酱紫啦,刚开始超热情,什么‘宝贝睡了吗’、‘吃饭了没’,现在咧?连贴图都懒得丢一个! 诶,你评评理啦!上次下雨天我特地绕去他公司送伞,结果他同事起哄,说‘哇~女朋友喔?’,他居然给我回‘就...朋友啊’!
靠北喔~谁跟你是‘就朋友’!我阿嬷泡的乌龙茶他都喝三罐了呀! 不管啦!这次他再不主动,我就...我就...
等等!他传讯息了!
‘在干吗?’...噗!又是这句!
每次开场白都一毛一样,到底是有多词穷啦!
不过...他加了一个爱心欸...
啊啊啊...烦死了!我这样是不是很没出息?
你快点骂醒我啦!
最后点击生成语音

等待10分钟,效果如下:
本文参考链接:
https://zhuanlan.zhihu.com/p/1924169140605813757
Index-TTS:最逼真的Ai声音克隆的更多相关文章
- 『创意欣赏』30幅逼真的 3D 虚拟现实环境呈现
又到周末了,给大家分享30幅漂亮的 3D 虚拟现实环境呈现,放松一下.这些创造性的场景都是通过 3D 图形设计软件,结合三维现实环境渲染制作出来的.一起欣赏:) 您可能感兴趣的相关文章 20幅温馨浪漫 ...
- 【翻译】基于web创建逼真的3D图形 | CSS技巧
个人翻译小站:http://www.zcfy.cc/article/creating-photorealistic-3d-graphics-on-the-web-css-tricks-4039.htm ...
- 再次推荐一款逼真的HTML5下雪效果
再次推荐一款逼真的下雪效果 效果图: 效果描述:之前推荐过一款下雪的jQuery插件之前的那款下降速度比较缓慢,今天推荐的这个下降速度比较快,大雪哇 使用方法:1.将index.html中的样式复制到 ...
- Python 人工智能 5秒钟偷走你的声音
介绍 Python 深度学习AI - 声音克隆.声音模仿,是一个三阶段的深度学习框架,允许从几秒钟的音频中创建语音的数字表示,并用它来调节文本到语音模型,该模型经过培训,可以概括到新的声音. 环境准备 ...
- AI:从游戏引擎--到AI
原文链接:http://blog.csdn.net/left_la/article/details/6358911#t9 这是我在Gameres上看到的一篇文章,文章很长,全文分为11个部分,看后感觉 ...
- 从假图片到假新闻,AI就这样“控制”了我们
在评论某位新蹿红的明星时,围观群众总是习惯性地先从长相上来判定,如"像周润发和梁朝伟的合体"."刘德华和郭富城的合体"等--反正比"黄渤和王宝强的合体 ...
- 你会用Python做出装逼的东西吗
如果我回答:“用Python很牛逼,但不能做出装逼的东西”,那大家来学习“小白的Python入门教程 ”,还有多少意义? 所以,为了让装逼的小船升级为牛逼的巨轮,让大家学完“小白的Python入门教程 ...
- 【分享】4412开发板ubuntu 12.0.4播放音乐没有声音解决方法
转自迅为论坛:http://bbs.topeetboard.com 准备工作 1.下载 vim 在命令行上输入 apt-get install vim 下载 vim 2.输入 vim /etc/hos ...
- 数据泵 TTS(传输表空间技术)
1.源库准备环境 --创建被传输的表空间create tablespace tts logging datafile '/home/oracle/app/oradata/orcl/tts01.dbf' ...
- SQL Server中LIKE %search_string% 走索引查找(Index Seek)浅析
在SQL Server的SQL优化过程中,如果遇到WHERE条件中包含LIKE '%search_string%'是一件非常头痛的事情.这种情况下,一般要修改业务逻辑或改写SQL才能解决SQL执行 ...
随机推荐
- Java中判断某一字符串是否包含数字、字母和中文
在Java中判断某一字符串是否为纯英文.纯数字.英文和数字的组合等时,通常使用正则str.matches匹配,告诉这个字符串是否与给定的正则表达式匹配. 各种字符的unicode编码的范围 ...
- Hexo博客Next主题更换cdn加速访问
有时候访问我的博客时,总是会出现cdn.jsdelivr.net无法访问或者访问速度过慢的情况.我的博客园使用的是BNDong/Cnblogs-Theme-SimpleMemory主题,也遇到的这样的 ...
- 解决 Electron 安装失败问题的实用指南
遇到安装失败问题? 在国内或其他网络受限的环境中,安装 Electron 时可能会遇到各种错误.以下是一些解决这些问题的有效方法. 如果您在Electron-Egg安装过程中遇到安装npm包报错的问题 ...
- 深入浅出Flink CEP丨如何通过Flink SQL作业动态更新Flink CEP作业
复杂事件处理(CEP)是一种对事件流进行分析的技术,它能够识别出数据流中的事件序列是否符合特定的模式,并允许用户对这些模式进行处理.Flink CEP 是 CEP 在 Apache Flink 中的具 ...
- 揭秘 ChunJun:如何实现 e2e&session 日志隔离
本文将从 e2e 的基本介绍,e2e 的使用与扩展,session 日志隔离三个维度为大家带来 ChunJun e2e & session 日志隔离的分享. 大量具体代码和演示请看视频教程️ ...
- 开源项目丨ChengYing 1.1版本重磅发布:新增超多功能,全新优化体验!
ChengYing是一站式全自动化全生命周期大数据平台运维管家,提供大数据产品的一站式部署.运维.监控服务,其可实现产品部署.产品升级.版本回滚.扩缩节点.日志诊断.集群监控.实时告警等功能,致力于最 ...
- [APIO2025 游记] 还老子钱
[APIO2025 游记] 还老子钱 day \(-\infty\) 在广东省集的时候因为水土不服,发高烧,终于回了cq又因为感冒还没好完+忘记吃药,戒断反应严重,上了一天学就回家休息了两天+开了一堆 ...
- wc记录
WC记录 咋可 随机化 CF1746F 给每个值随机成\(0/1\),然后查询区间内的所有数的和是否\(\equiv0\mod k\) 考虑错误率,对于一个不合法的权值,设其有\(r\)个,考虑区间内 ...
- NOI 2017 蚯蚓排队 题解
Problem 原题链接 Meaning 给定一些数字,对它们进行首尾相接和断开两种操作.对于每次询问,求对于每个数字,其后长度一定的数字串在给定数字串中出现的次数,并给出这些次数之积. Soulti ...
- 从Rust想到C#
近几年,RUST语言越来越受大家的喜爱,排除去一些跟风者,大部分的人喜欢RUST的内存安全性和高效的性能.但编译速度始终是它的短板. 这几天,突然有一个想法,如果C#或者说.NET的编译器也做成RUS ...