GLM-TTS一文详解：webUI界面操作全流程图文教程-编程阁

GLM-TTS一文详解：webUI界面操作全流程图文教程

🎵 零样本语音克隆 · 情感表达 · 音素级控制
webUI二次开发by 科哥微信：312088415

1. 快速开始

1.1 启动 Web 界面

GLM-TTS 提供了直观的图形化操作界面（webUI），用户可通过浏览器进行语音合成任务。启动前请确保已正确部署项目环境。

方式一：使用启动脚本（推荐）

cd /root/GLM-TTS source /opt/miniconda3/bin/activate torch29 bash start_app.sh

方式二：直接运行应用

cd /root/GLM-TTS source /opt/miniconda3/bin/activate torch29 python app.py

执行成功后，终端将输出类似以下信息：

Running on local URL: http://127.0.0.1:7860

在浏览器中访问http://localhost:7860即可进入 GLM-TTS 的 webUI 操作界面。

⚠️注意：每次启动必须先激活torch29虚拟环境，否则可能因依赖缺失导致运行失败。

2. 基础语音合成

2.1 功能概述

基础语音合成功能适用于单次文本转语音任务，支持零样本音色克隆、多语言输入与情感迁移，适合快速测试和小规模生成。

2.2 操作流程详解

步骤 1：上传参考音频

在「参考音频」区域点击上传按钮或拖拽文件。
格式要求：WAV、MP3 等常见音频格式。
时长建议：3–10 秒清晰人声。
质量提示：避免背景噪音、音乐干扰或多说话人混杂。

系统通过该音频提取音色特征，实现个性化语音克隆。

步骤 2：填写参考文本（可选）

在「参考音频对应的文本」框中输入音频内容。
若不提供，系统将自动识别（准确率受限于ASR模型性能）。
提供准确文本有助于提升音色还原度与发音准确性。

步骤 3：输入目标文本

在「要合成的文本」输入框中键入希望生成的内容。
支持中文、英文及中英混合语句。
建议单次不超过 200 字符，以保证稳定性和生成效率。

示例：

你好，我是来自未来的AI助手，很高兴为你服务。

步骤 4：配置高级参数（可选）

点击「⚙️ 高级设置」展开详细选项：

参数	说明	推荐值
采样率	决定输出音频质量	24000（平衡速度与质量）或 32000（高保真）
随机种子	控制生成随机性	固定值如`42`可复现结果
启用 KV Cache	显著加速长文本推理	✅ 开启
采样方法	影响语调自然度	`ras`（随机采样）更生动

步骤 5：开始合成

点击「🚀 开始合成」按钮。
系统加载模型并生成音频，耗时通常为 5–30 秒。
完成后音频自动播放，并保存至本地。

2.3 输出文件路径

所有生成的音频默认存储在：

@outputs/tts_YYYYMMDD_HHMMSS.wav

命名规则为时间戳，便于区分不同批次任务。

3. 批量推理

3.1 使用场景

批量推理功能专为大规模语音生成设计，适用于有声书制作、客服语音库构建、教学资源生成等需要自动化处理的场景。

3.2 准备任务文件

创建 JSONL 格式文件（每行一个独立任务对象），例如：

{"prompt_text": "这是第一段参考文本", "prompt_audio": "examples/prompt/audio1.wav", "input_text": "要合成的第一段文本", "output_name": "output_001"} {"prompt_text": "这是第二段参考文本", "prompt_audio": "examples/prompt/audio2.wav", "input_text": "要合成的第二段文本", "output_name": "output_002"}

字段说明：

prompt_text：参考音频的文字内容（可为空）
prompt_audio：音频文件路径（相对或绝对路径均可）
input_text：待合成的目标文本
output_name：自定义输出文件名（可选，默认按序编号）

✅ 建议将音频统一存放于examples/prompt/目录下，便于管理。

3.3 执行批量任务

切换至「批量推理」标签页。
点击「上传 JSONL 文件」选择准备好的任务列表。
设置全局参数：
- 采样率：24000 或 32000
- 随机种子：建议固定（如42）
- 输出目录：默认为@outputs/batch，可修改
点击「🚀 开始批量合成」启动任务队列。

系统将逐条处理任务，并实时显示进度与日志信息。

3.4 输出结构

完成后的音频集中保存在指定输出目录中：

@outputs/batch/ ├── output_001.wav ├── output_002.wav └── ...

任务结束后会打包生成 ZIP 文件供下载，方便后续集成使用。

4. 高级功能详解

4.1 音素级控制（Phoneme Mode）

功能价值

解决多音字、生僻字误读问题，实现精准发音控制，尤其适用于专业术语、地名、古诗词等特殊场景。

启用方式

通过命令行调用并开启--phoneme参数：

python glmtts_inference.py --data=example_zh --exp_name=_test --use_cache --phoneme

自定义发音规则

编辑配置文件configs/G2P_replace_dict.jsonl，添加自定义映射：

{"word": "重庆", "phonemes": ["chóng", "qìng"]} {"word": "银行", "phonemes": ["yín", "háng"]}

每行一个词条，系统将在推理时优先匹配这些规则。

💡 修改后需重启服务或重新加载模型才能生效。

4.2 流式推理（Streaming Inference）

核心优势

实现低延迟音频流输出
支持实时交互式应用（如虚拟主播、电话机器人）
提升用户体验流畅性

性能指标

Token Rate：约 25 tokens/sec（固定速率）
数据以 chunk 形式逐步返回，前端可边接收边播放

应用建议

结合 WebSocket 或 SSE 接口实现前后端流式通信，适用于对响应速度敏感的生产系统。

4.3 情感控制机制

工作原理

GLM-TTS 支持基于参考音频的情感迁移。系统自动分析输入音频的情绪特征（如喜悦、悲伤、愤怒、平静等），并在生成过程中复现相似情感风格。

使用技巧

选择带有明确情感色彩的参考音频（如朗读诗歌、广告配音）
避免情绪波动剧烈的片段
对同一角色保持一致的情感基调，增强连贯性

示例：使用一段欢快语气的儿童故事录音作为 prompt，生成的新句子也会带有童趣和活泼感。

5. 使用技巧与最佳实践

5.1 参考音频优化策略

类型	推荐做法
✅ 推荐	清晰人声、无背景音、单一说话人、3–10秒长度
❌ 避免	背景音乐、多人对话、爆音/削波、过短或过长

高质量参考音频是实现高保真克隆的关键因素之一。

5.2 文本输入规范

标点符号：合理使用逗号、句号、感叹号等影响语调停顿。
分段处理：超过 150 字的长文本建议拆分为多个短句分别合成。
中英混合：支持良好，但应避免频繁切换语言造成语调断裂。

5.3 参数调优指南

目标	推荐配置
快速测试	24kHz + KV Cache + seed=42
高音质输出	32kHz + ras采样
结果可复现	固定随机种子（如 42）
显存紧张	使用 24kHz 并定期清理显存

6. 常见问题解答

6.1 生成的音频保存在哪里？

答：

单次合成：@outputs/tts_时间戳.wav
批量任务：@outputs/batch/自定义名.wav或打包 ZIP 下载

6.2 如何提高音色相似度？

答：

使用高质量、清晰的参考音频；
准确填写参考文本；
推荐音频长度为 5–8 秒；
保持情感自然、语速适中。

6.3 支持哪些语言？

答：

✅ 中文普通话
✅ 英文
✅ 中英混合
⚠️ 其他语言（如日语、韩语）暂未优化，效果有限

6.4 生成速度慢怎么办？

答：

切换为 24kHz 采样率；
确保启用 KV Cache；
缩短单次合成文本长度；
检查 GPU 显存是否充足（建议 ≥12GB）

6.5 如何清理显存？

答：点击界面上的「🧹 清理显存」按钮，系统将释放当前模型占用的 GPU 内存，适用于切换模型或释放资源。

6.6 批量推理失败如何排查？

答：

检查 JSONL 文件格式是否合法（每行为独立 JSON 对象）；
确认所有音频路径存在且可读；
查看控制台日志定位具体错误；
注意单个任务失败不会中断整体流程。

6.7 音频质量不满意怎么改进？

答：

更换参考音频尝试不同音色源；
提高采样率至 32kHz；
尝试不同随机种子（如 42, 123, 999）；
检查输入文本是否存在错别字或异常符号。

7. 性能参考与资源消耗

7.1 生成耗时参考

文本长度	平均耗时
<50 字	5–10 秒
50–150 字	15–30 秒
150–300 字	30–60 秒

实际耗时受 GPU 型号、文本复杂度、采样率等因素影响。

7.2 显存占用情况

模式	显存需求
24kHz	约 8–10 GB
32kHz	约 10–12 GB

建议使用 NVIDIA A10/A100/V100 等高性能 GPU 设备以获得最佳体验。

8. 最佳实践工作流

8.1 推荐操作流程

测试阶段
- 使用短文本快速验证音色效果；
- 尝试多个参考音频对比差异；
- 确定最优参数组合（采样率、种子、采样方法）。
生产准备
- 整理标准化的参考音频库；
- 编写结构化的 JSONL 任务文件；
- 统一命名规则与输出路径。
批量执行
- 使用批量推理功能一次性处理全部任务；
- 记录日志用于后期审计与优化。
质量审核
- 抽样听取生成音频；
- 建立“优质音色模板”档案；
- 持续迭代优化输入素材质量。

9. 技术支持与版权信息

如有技术问题、定制需求或合作意向，请联系开发者：

科哥
微信：312088415

本项目基于开源项目 GLM-TTS 进行二次开发，保留原始协议条款。

webUI 界面由科哥独立开发维护，未经授权不得用于商业用途。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。