部署

部署FishSpeech，优先参考github官方（https://speech.fish.audio/zh/）。

注意：此网站可能需要FQ才能访问。

个人为Windows电脑，使用Windows配置步骤。

Windows11配置过程

conda安装

下载Conda，地址：https://www.anaconda.com/download

点击Skip registration，进入下载界面，下载界面提供Anaconda 和 Miniconda 。

Anaconda 和 Miniconda它们之间的区别在于

本地电脑空间足够，下载Anaconda。

配置环境变量

安装后配置系统环境变量。

配置编译加速

参考官方教程，配置compile加速。

下载四个软件，安装。无需下载和执行install_env.bat。而是通过源代码来配置环境。

git拉取源代码下来，当前版本是1.5。cd进入当前项目根目录。

参考以下代码，通过Powershell控制台激活conda环境。

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv

conda create -n fish-speech python=3.10

conda activate fish-speech

# 安装 pytorch

pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121

# 安装 fish-speech

pip3 install -e .

# (开启编译加速) 安装 triton-windows

pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl

注意：conda init之后默认控制台进入base环境。

此系统上禁止运行脚本

提示此文案，一般是权限策略导致。

在以管理员身份运行 PowerShell ，执行以下命令：

Set-ExecutionPolicy RemoteSigned -Scope CurrentUser

创建快捷方式

在根目录新建一个bat，用于启动api服务器。文件名：start_api_server.bat

call conda activate fish-speech

cd /d %~dp0

python -m tools.api_server --listen 0.0.0.0:8080  --llama-checkpoint-path "checkpoints/fish-speech-1.5"  --decoder-checkpoint-path "checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth"  --decoder-config-name firefly_gan_vq --compile

再创建一个推理web的快捷方式。文件名：start_infer_web.bat

call conda activate fish-speech

cd /d %~dp0

python -m tools.run_webui --llama-checkpoint-path "checkpoints/fish-speech-1.5"  --decoder-checkpoint-path "checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth"  --decoder-config-name firefly_gan_vq --compile

带编译命令会启动慢一些，命令行会输出如下：

API服务启动后的界面：

推理WEB界面：

语音合成客户端

下载客户端（https://github.com/AnyaCoder/fish-speech-gui/releases），客户端会被报病毒，如果要是用需要把软件找回并加入白名单。

软件界面：

输入后端url（默认本地路径），我这里通过FRP穿透，映射了一个公网域名。点击Test URL，没问题则表示成功连接了。

参考模型ID

将自己录制的语音处理好后，放到服务器项目根目录指定目录下。

创建references目录。
创建参考ID目录，可以是中文名。
放入录制语音文件（mp3、wav），和对应的文本内容（lab）。

不设置模型ID，也可以手动上传这两个文件。

合成语音

切换到【文本转语音】Tab，输入待合成文本。

点击开始语音合成，即可生成合成的语音文件。

使用FishSpeech进行语音合成推理的更多相关文章

Paddle Inference推理部署
Paddle Inference推理部署飞桨(PaddlePaddle)是集深度学习核心框架.工具组件和服务平台为一体的技术先进.功能完备的开源深度学习平台,已被中国企业广泛使用,深度契合企业应用需 ...
语音合成论文翻译：2019_MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis
论文地址:MelGAN:条件波形合成的生成对抗网络代码地址:https://github.com/descriptinc/melgan-neurips 音频实例:https://melgan-neu ...
ROS语音交互——科大讯飞语音合成TTS（二）
之前我用过科大讯飞的语音包,为了记录一下我重新使用一下首先注册科大讯飞账号及应用,以后每个下载的在线使用SDK都是以此账户ID登录讯飞语音服务器. 下载科大讯飞在线合成包. $ unzip Linu ...
人工智能交互集成在线语音合成能力的Tips
在线语音合成就是在联网的场景下将文字转换成声音,实现机器向人的声音交互.这个概念应该是比较好理解的,下面就结合官网的Android在线合成的Demo讲解一下合成的流程以及大家经常遇到的一些问题. 到官 ...
C#中语音合成简单使用
我使用的是vs2013 1.在项目中添加引用,项目->添加引用->COM选择Microsoft Speech Object Library 2.在需要使用语音合成的地方调用代码: SpVo ...
C#将科大讯飞语音合成文件转换为MULAW音频格式
任务描述:通过科大讯飞语音合成组件在线完成文本转语音的合成,然后再转换为电话系统IVR要求的音频格式: wave mu-law 16位 8kHZ 64kbps. 完成步骤: 首先,我们要先通过科大讯飞 ...
vb小菜一枚-----了解“类型推理”
局部类型推理 (Visual Basic) Visual Studio 2013 其他版本 Visual Basic 编译器使用类型推理来确定未使用 As 子句声明的局部变量的数据类型. 编译 ...
android用讯飞实现TTS语音合成实现中文版
Android系统从1.6版本开始就支持TTS(Text-To-Speech),即语音合成.但是android系统默认的TTS引擎:Pic TTS不支持中文.所以我们得安装自己的TTS引擎和语音包. ...
机器学习&数据挖掘笔记_20（PGM练习四：图模型的精确推理）
前言: 这次实验完成的是图模型的精确推理.exact inference分为2种,求边缘概率和求MAP,分别对应sum-product和max-sum算法.这次实验涉及到的知识点很多,不仅需要熟悉图模 ...
谷歌黑科技WaveNet，更先进的语音合成
导读 Google 的 DeepMind 研究实验室昨天公布了其在计算机语音合成领域的最新成果——WaveNet.该语音合成系统能够模仿人类的声音,生成的原始音频质量优于目前的文本转语音系统(text ...

随机推荐

ArkTs布局入门05——栅格布局（GridRow/GridCol）
1.概述栅格布局是一种通用的辅助定位工具,对移动设备的界面设计有较好的借鉴作用.主要优势包括: 提供可循的规律:栅格布局可以为布局提供规律性的结构,解决多尺寸多设备的动态布局问题.通过将页面划分为等 ...
鸿蒙UI布局实战 —— 个人中心页面开发
1.前言接下里我们将开启"鸿蒙UI布局系列"的学习,第一站:学习线性布局(Row/Column)+ 弹性布局(Flex) 在展开学习前,先上一个实战demo--开发一个个人中心页 ...
PCB设计AD规则设置(按照嘉立创设置)
本文转载自https://blog.csdn.net/subtitle_/article/details/121648972 官方参考https://www.jlc.com/portal/vtechn ...
Postgresql使用触发器实现同步插入两张表
在有一个陈旧的系统的情况下,如果升级API可以优先使用微服务的形式,将数据库进行独立拆分,将原来的数据库原原本本地固定在旧系统中,然后在独立的微服务中运行与部署新系统. 如果原有的数据需要在更换结构的 ...
【C#】【FFmpeg】获取电脑可用音视频设备并输出到下拉列表框
[重要]不要边看文本边操作,本文由错误纠正,先看完一遍再说. 要使用的FFmpeg命令 ffmpeg -list_devices true -f dshow -i dummy 会输出的信息通过正则取 ...
浅谈 IoT 如何助力制造业企业实现数字化落地
物联网作为新一代信息技术的重要组成部分,正在加速渗透到各行各业,成为经济社会数字化转型的关键支撑.根据中商产业研究院发布的<2022-2027 年中国物联网市场需求预测及发展趋势前瞻报告> ...
冒泡排序------python实现
if __name__ == '__main__': ''' 算法描述 1.比较相邻的元素,更具大小交互位置 2.对每一对相邻元素作同样的工作,从开始第一队到结尾的最后一对,即可选出最大的数 3.所有 ...
Solution -「ZJOI 2018」「洛谷 P4338」历史
$\mathscr{Description}$ Link. 给定一棵以 $1$ 为根的树,点 $u$ 有非负点权 $a_u$. 定义 $u$ 的一次染色的代价为:路径 ...
linux-杂项
1.常用基础防火墙systemctl status firewalldsystemctl stop firewalldsystemctl start firewalld find / -size + ...
w3cschool-微信小程序开发文档-框架
https://www.w3cschool.cn/weixinapp/1g7f1q8l.html MINA文件结构文件结构 MINA程序包含一个描述整体程序的app和多个描述各自页面的page. 一 ...

使用FishSpeech进行语音合成推理

部署