Fish Speech 1.5实战教程:5步完成文本转语音+下载WAV文件完整流程
1. Fish Speech 1.5简介
Fish Speech 1.5是由Fish Audio开源的新一代文本转语音(TTS)模型,基于LLaMA架构与VQGAN声码器,支持零样本(Zero-Shot)语音合成。这款模型的最大特点是仅需10-30秒的参考音频,就能克隆任意音色并生成中、英、日、韩等13种语言的高质量语音,无需针对特定说话人进行微调。
模型摒弃了传统音素依赖,具备跨语言泛化能力,5分钟英文文本错误率低至2%。对于开发者而言,这意味着可以快速构建多语言语音合成应用,而无需担心复杂的训练过程。
2. 环境准备与快速部署
2.1 镜像基本信息
- 镜像名称:ins-fish-speech-1.5-v1
- 适用底座:insbase-cuda124-pt250-dual-v7
- 启动命令:
bash /root/start_fish_speech.sh - 访问端口:
- 7860(WebUI,对外访问)
- 7861(API,内部调用)
2.2 部署步骤
- 在平台镜像市场选择Fish Speech 1.5镜像
- 点击"部署实例"按钮
- 等待实例状态变为"已启动"(首次启动需要60-90秒完成CUDA Kernel编译)
- 通过终端查看启动进度:
当看到"后端API已就绪"和"启动前端WebUI"的日志时,表示服务已准备就绪tail -f /root/fish_speech.log
3. 5步完成文本转语音
3.1 访问Web界面
在实例列表中找到部署的Fish Speech实例,点击"HTTP"入口按钮,或直接在浏览器地址栏输入:
http://<实例IP>:78603.2 输入文本内容
在Web界面左侧的"输入文本"框中输入想要转换为语音的文字内容。例如:
你好,欢迎使用Fish Speech 1.5语音合成系统。或英文内容:
Hello, welcome to Fish Speech text-to-speech system.3.3 调整生成参数(可选)
- 最大长度:控制生成语音的时长,默认1024 tokens(约20-30秒语音)
- 其他参数保持默认即可满足大多数场景需求
3.4 生成语音
点击界面中的"🎵 生成语音"按钮,状态栏会显示"⏳ 正在生成语音..."。通常2-5秒后,状态会变为" 生成成功"。
3.5 试听与下载
生成完成后,右侧会显示:
- 音频播放器:点击即可试听生成的语音
- " 下载WAV文件"按钮:点击可将语音文件保存到本地
4. API调用方法
对于需要批量处理或集成到其他系统的开发者,可以通过API方式调用Fish Speech服务:
curl -X POST http://127.0.0.1:7861/v1/tts \ -H "Content-Type: application/json" \ -d '{"text":"API测试","reference_id":null}' \ --output api_test.wavAPI支持以下主要参数:
| 参数 | 类型 | 必需 | 说明 |
|---|---|---|---|
text | string | 要合成的文本(支持中英文) | |
reference_id | string | 参考音色ID(当前传null) | |
reference_audio | string | 参考音频文件路径(API模式支持音色克隆) | |
max_new_tokens | int | 最大生成token数(默认1024) | |
temperature | float | 采样温度(0.1-1.0,默认0.7) |
5. 常见问题与解决方案
5.1 WebUI无法访问
现象:浏览器访问7860端口无响应
解决方法:
- 检查服务是否启动完成:
lsof -i :7860 - 首次启动需要等待60-90秒CUDA编译完成
5.2 生成语音失败
现象:生成过程卡住或报错
解决方法:
- 检查输入文本长度,避免超过1024 tokens
- 查看日志定位问题:
tail -50 /root/fish_speech.log
5.3 音频质量问题
现象:生成的语音不清晰或有杂音
解决方法:
- 尝试调整temperature参数(0.5-0.8效果较好)
- 确保输入文本语法正确,避免特殊符号
5.4 音色克隆问题
现象:无法通过WebUI实现音色克隆
原因:当前WebUI版本仅支持基础TTS功能
解决方案:使用API方式,通过reference_audio参数传入参考音频
6. 总结
通过本教程,我们完成了Fish Speech 1.5文本转语音的完整流程:
- 快速部署Fish Speech镜像
- 通过Web界面输入文本并生成语音
- 试听和下载生成的WAV文件
- 了解API调用方法
- 解决常见问题
Fish Speech 1.5凭借其优秀的跨语言能力和高质量的语音输出,非常适合以下场景:
- 语音合成服务集成
- 有声内容创作
- 语音交互原型开发
- 跨语言内容制作
- 教学演示
对于开发者而言,其双服务架构(WebUI+API)提供了灵活的使用方式,既适合快速测试,也能满足批量处理需求。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。