手把手教你用GPT-SoVITS克隆声音-编程阁

GPT-SoVITS语音克隆实战指南：从零打造你的数字声纹

你有没有想过，只需要一分钟的录音，就能让AI完美复刻你的声音？不是那种机械朗读，而是真正带有语气、情感、甚至呼吸节奏的“活的声音”——就像你在说话一样。

这不再是科幻。随着GPT-SoVITS的出现，个性化语音合成已经进入“人人可上手”的时代。这个开源项目凭借其出色的音色还原能力和极低的数据门槛（仅需1分钟高质量音频），正在被越来越多的内容创作者、虚拟主播和有声书制作者所采用。

更关键的是，它完全可以在本地运行，不依赖云端服务，隐私安全有保障。今天，我就带你一步步走完整个流程，不跳过任何一个细节，哪怕你是第一次接触AI语音，也能顺利完成属于自己的声音模型训练。

我们用的实际路径是：

E:\AI\GPT-SoVITS-v2-240821

但别急着点开文件夹——先搞清楚你要面对什么。

官方仓库在 GitHub 上更新频繁，国内用户建议通过镜像站下载预打包版本，省去配置环境的麻烦：

🌐 推荐地址：https://hf-mirror.com/lj1995/GPT-SoVITS-windows-package

找到最新的发布包（比如GPT-SoVITS-v2-240821），下载压缩包后解压到一个无中文、无空格的路径下。这一点很重要，很多新手跑不起来就是因为路径带了“我的文档”这类字符。

解压完成后你会看到几个核心目录：

raw/：原始音频放这里
logs/：训练日志和模型输出都在这儿
output/：中间处理结果的“中转站”
UVR5/：人声分离工具集
还有两个批处理脚本：go-webui.bat和stop-webui.bat

双击运行go-webui.bat，系统会自动安装 Python 依赖并启动主界面。首次运行时间较长，请耐心等待。成功后浏览器会打开：

http://127.0.0.1:9874/

看到这个页面就说明环境准备好了——干净的UI，左侧功能导航，右边实时日志滚动，一切就绪。

现在，让我们正式开始声音克隆之旅。

假设我们要克隆一位叫“小明”的人声。第一步，当然是拿到一段清晰的人声素材。

🔊 要求很明确：
- 时长30秒到3分钟为佳
- 单一人声，避免对话或背景音乐
- 格式推荐 WAV 或 MP3
- 环境安静，没有明显底噪或回响

把音频文件命名为xiaoming.mp3，然后放进：

E:\AI\GPT-SoVITS-v2-240821\raw\xiaoming\

注意！不要直接扔进raw根目录，必须创建子文件夹。这是项目的硬性要求，否则后续步骤会报错。

如果你的原始录音里有背景音乐怎么办？比如是从视频里提取的配音？这时候就得靠UVR5来做“人声剥离”。

点击主界面上的【开启UVR5-WebUI】，几秒后新标签页打开：

http://127.0.0.1:7878/

填入以下参数：

参数	设置
主模型选择	`HP2_all_vocals`
输入路径	`E:\AI\GPT-SoVITS-v2-240821\raw\xiaoming`
导出格式	`wav`

其他保持默认即可。HP2_all_vocals是通用型人声提取模型，适合大多数人声场景；如果录音混响严重，可以额外启用onnx_dereverb_By_FoxJoy去混响。

点击【Start】，等待处理完成。结束后你会在output\uvr5_opt目录看到分离出来的人声文件，例如：

output\uvr5_opt\xiaoming.wav

试听一下，确认是干净的人声片段。伴奏部分可以直接删掉。

回到主界面，关闭 UVR5 模块。

接下来是切分环节。为什么需要切分？

因为 GPT-SoVITS 训练时是以“短句”为单位进行对齐的。一段两分钟的连续录音如果不分割，模型很难精准匹配每句话的内容和发音特征。

点击【开启音频切割】，填写：

切分输入路径：output\uvr5_opt
输出路径：默认
语言选择：中文
是否变声：否

点击【Run】，系统会使用 VAD（语音活动检测）技术自动识别语义停顿点，并将长音频切成一个个独立句子。完成后日志显示“切割结束”，此时查看：

output\slicer_opt\xiaoming\

你会看到类似这样的文件：

000000_bababa.wav 000001_nihaoma.wav ...

每个都是语义完整的短句，便于下一步文本标注。

如果录音质量不错，底噪很小，这一步之后可以直接进入 ASR；但如果存在呼吸声、电流声或空调噪音，建议多走一步降噪。

点击【开启语音降噪】，输入路径选：

output\slicer_opt\xiaoming

输出路径默认即可。处理完成后，降噪版音频会存入：

output\denoise_opt\xiaoming\

建议对比原音频和降噪版，判断是否过度压制了语音细节。有时候轻微的呼吸声反而有助于提升自然度，不必追求“绝对干净”。

有了干净的音频片段，下一步就是生成对应的文本内容——也就是建立“音频→文字”的映射关系。

点击【开启离线批量ASR】，设置如下：

项目	值
模型类型	Whisper tiny / base 中文
输入路径	`output\denoise_opt\xiaoming`
语言	中文
是否启用标点恢复	是

Whisper 模型会在本地逐条识别音频内容，并生成.lab文件，保存在output/asr_opt目录下。例如：

xiaoming/000000_bababa.lab → 内容："你好啊"

这些.lab文件就是训练所需的监督信号。

但别以为到这里就万事大吉了——ASR 自动生成的文本往往会有错别字、断句错误、漏字等问题。比如把“你好啊”识别成“你哈啊”，或者把一句完整的话拆得支离破碎。

所以必须人工校对。

点击【开启打标WebUI】，页面跳转至：

http://127.0.0.1:7879/

界面很简单：
- 左侧列出所有音频片段
- 中间是播放器
- 右边是文本编辑框

操作流程也很直观：
1. 点击左侧任一片段
2. 试听音频
3. 修改右侧文本，确保一字不差
4. 点击【Submit Text】保存

举个例子：

原识别文本：

你哈啊今天气真好

应改为：

你好啊，今天天气真好。

标点也要加上，这对语气建模很重要。

全部校对完成后，返回主界面关闭打标模块。此时系统已经在后台构建了一个高质量的“音频-文本”配对数据集，这才是训练好模型的基础。

接下来是数据预处理阶段。虽然听起来很技术，但在这个项目里，只需要点一次按钮就能搞定。

切换顶部选项卡到：

1-GPT-SoVITS-TTS

填写以下信息：

字段	值
模型名称	`xiaoming_model`
音频文件夹路径	`output/denoise_opt/xiaoming`
文本标注文件夹	`output/asr_opt`
输出日志路径	`logs/xiaoming_model`
采样率	32kHz
是否清洗文本	是

拉到底部，点击【开启一键三连】。

这个名字挺有趣，但它干的事一点都不含糊——一次性完成三项关键任务：

使用 HuBERT 提取音高特征（pitch）
生成标准化训练列表（filelist）
利用 BERT 编码语义 token 序列

整个过程大约1~3分钟，完成后logs/xiaoming_model/下会出现完整的训练集文件，包括train.list、bert缓存等。这标志着数据准备工作全部完成。

真正的重头戏来了：模型微调训练。

GPT-SoVITS 实际上是由两个模型协同工作的：

SoVITS：负责音色建模，决定“谁在说话”
GPT：负责语义与韵律建模，控制“怎么说话”

所以我们需要分别训练这两个模块。

先训练 SoVITS。

点击：

1B-微调训练 → 开启SoVITS

初学者建议保持默认参数：

总训练轮数：10（对于1分钟数据足够）
保存频率：2（每2轮保存一次）
学习率：1e-4
batch_size：4（根据显存调整）

点击【Start】，控制台开始输出 loss 曲线。观察 loss 是否稳定下降，若趋于平缓则说明已收敛。

训练完成后，模型会保存在：

SoVITS_weights_v2\xiaoming_model_e10_s5.pth

接着训练 GPT 模型。

点击：

开启GPT训练

参数设置：

max_epochs：10
precision：fp32（显存不足可改 bf16）
batch_size：4

GPT 模型学习的是说话风格、停顿节奏、情绪表达等高级特征。训练完成后生成：

GPT_weights_v2\xiaoming_model-e10.ckpt

你会发现每个模型都生成了好几个版本，这是因为设置了“每2轮保存一次”。一般选择编号最大的那个效果最好。

终于到了最激动人心的时刻：语音合成。

点击：

1C-推理 → 开启TTS推理WebUI

新页面打开：

http://127.0.0.1:9880/

第一步：加载模型

在“模型选择区”：

SoVITS模型路径：选择SoVITS_weights_v2下最新的.pth文件
GPT模型路径：选择GPT_weights_v2下最新的.ckpt文件

如果没显示，点击【刷新模型路径】。

加载成功后会有提示：“模型加载成功”。

第二步：设置参考音频与文本

在“参考音频区”：

拖入一段处理过的干净音频（如denoise_opt/xiaoming/xxx.wav）
输入对应的原文本（用于风格对齐）

例如：

音频：000000_hello.wav 文本：你好啊，很高兴认识你。

这一步非常关键——它告诉模型：“这段声音是怎么说这句话的”，从而建立起音色与表达方式之间的联系。

第三步：输入待合成文本

在右侧“TTS合成区”输入你想让“小明”说的新句子：

今天的风儿甚是喧嚣，仿佛在诉说着什么秘密。

其他参数保持默认：
- 温度：0.7（控制随机性）
- Top-K：20（增强连贯性）
- 语速：1.0

点击【合成语音】。

🎉 几秒钟后，下方就会播放生成的音频！

你可以反复试听，下载分享，甚至用来制作播客、旁白或虚拟角色对话。完全由你自己定义的声音表达，真正意义上的“数字分身”。

有个实用小技巧：如果要合成长文本，可以先用内置的“文本切分区”自动按语义拆分句子，再逐句生成，避免一口气说太长导致失真。

整个流程走下来，你会发现 GPT-SoVITS 的设计思路非常清晰：模块化处理 + 少样本学习 + 本地化部署。

它的强大之处不仅在于只需一分钟语音就能训练出高度还原的模型，更在于全流程可控、可调试。每一个环节都可以根据实际需求优化，比如更换更好的降噪算法、手动调整切分边界、使用更大规模的 Whisper 模型做 ASR。

而这一切都不需要你懂代码，也不用担心数据上传到服务器。所有的处理都在你自己的电脑上完成，真正做到了“低门槛、高自由、强隐私”。

当然，也有一些经验值得分享：

数据质量永远比数量重要。哪怕只有30秒，只要清晰干净，也能出不错的效果。
多轮训练不一定更好，通常10轮左右就能收敛，过多可能导致过拟合。
参考音频的选择会影响语气风格。想让声音显得温柔些？那就选一句轻柔的语句作为参考。

当技术不再遥不可及，每个人都能拥有自己的“声音副本”。这不是替代你说话，而是延伸你的表达方式。

下一个“数字分身”，或许就在你按下【合成语音】的那一刻诞生。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

手把手教你用GPT-SoVITS克隆声音

GPT-SoVITS语音克隆实战指南：从零打造你的数字声纹

第一步：加载模型

第二步：设置参考音频与文本

第三步：输入待合成文本

Dify工作流集成Anything-LLM实现企业级智能任务自动化

云边协同：云服务器在边缘计算场景中的价值重构与实践探索

LobeChat能否优化SEO标题？内容创作者必备

PowerDMIS 自动公差范围设置区

大模型应用三定律丨工具、裁决、责任

医疗超声波焊接技术案例是什么？德诺超声波（DELOK）在医疗产品焊接中的应用主要有那些？

GPT-SoVITS语音克隆实战指南：从零打造你的数字声纹

第一步：加载模型

第二步：设置参考音频与文本

第三步：输入待合成文本

Dify工作流集成Anything-LLM实现企业级智能任务自动化

云边协同：云服务器在边缘计算场景中的价值重构与实践探索

LobeChat能否优化SEO标题？内容创作者必备

PowerDMIS 自动公差 范围设置区

大模型应用三定律丨工具、裁决、责任

医疗超声波焊接技术案例是什么？德诺超声波（DELOK）在医疗产品焊接中的应用主要有那些？

PowerDMIS 自动公差范围设置区