FunASR语音识别WebUI使用指南｜科哥镜像开箱即用-编程阁

FunASR语音识别WebUI使用指南｜科哥镜像开箱即用

1. 快速开始与环境准备

1.1 镜像简介

FunASR 语音识别 WebUI 是基于开源项目 FunASR 的二次开发成果，由开发者“科哥”构建并优化。该镜像集成了speech_ngram_lm_zh-cn语言模型，并封装了 Paraformer-Large 和 SenseVoice-Small 等主流中文语音识别模型，支持高精度离线识别、标点恢复、时间戳输出和实时录音功能。

本镜像最大特点是开箱即用，无需复杂的依赖安装或模型下载流程，适用于语音转写、字幕生成、会议记录等多种场景。

1.2 启动服务

确保已安装 Docker 环境后，执行以下命令拉取并运行镜像：

# 拉取镜像（示例地址，请根据实际替换） sudo docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6 # 创建模型挂载目录 mkdir -p ./funasr-runtime-resources/models # 启动容器（映射端口7860用于Web访问） sudo docker run -p 7860:7860 -it --privileged=true \ -v $PWD/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6

注意：若服务器具备 GPU 支持，建议使用 CUDA 版本镜像以提升识别速度。

1.3 访问 WebUI

服务启动成功后，在浏览器中打开：

http://localhost:7860

如需远程访问，请将localhost替换为服务器 IP 地址：

http://<服务器IP>:7860

页面加载完成后即可进入 FunASR WebUI 主界面。

2. 界面功能详解

2.1 头部信息区域

页面顶部显示系统基本信息：

标题：FunASR 语音识别 WebUI
描述：基于 FunASR 的中文语音识别系统
版权信息：webUI 二次开发 by 科哥 | 微信：312088415

此部分为固定展示内容，便于用户确认当前使用的版本来源。

2.2 控制面板（左侧）

2.2.1 模型选择

提供两种核心 ASR 模型供切换：

Paraformer-Large：大参数量模型，识别准确率更高，适合对质量要求高的场景。
SenseVoice-Small：轻量级模型，响应速度快，适合低延迟需求或资源受限环境。

默认选中 SenseVoice-Small，可根据实际需要手动切换。

2.2.2 设备选择

决定推理所用硬件设备：

CUDA：启用 GPU 加速，显著提升长音频处理效率（推荐有显卡时使用）。
CPU：通用模式，兼容性好，适合无独立显卡的设备。

系统会自动检测可用设备并默认勾选最优选项。

2.2.3 功能开关

三项关键增强功能可自由启停：

启用标点恢复 (PUNC)：在识别结果中自动添加句号、逗号等标点符号，提升可读性。
启用语音活动检测 (VAD)：自动分割静音段落，仅保留有效语音片段进行识别。
输出时间戳：为每个词或句子标注起止时间，便于后期编辑与同步。

建议日常使用时开启全部功能以获得完整信息。

2.2.4 模型状态指示

实时显示当前模型加载情况：

✓模型已加载：表示模型初始化完成，可正常识别。
✗模型未加载：需点击“加载模型”按钮重新加载。

首次启动或更换模型后可能需要短暂加载时间。

2.2.5 操作按钮

包含两个实用操作：

加载模型：强制重新加载当前配置的模型，适用于修改设置后的刷新。
刷新：更新界面状态显示，检查设备与模型连接情况。

3. 使用流程详解

3.1 方式一：上传音频文件识别

3.1.1 支持格式与推荐参数

支持的音频格式包括：

WAV (.wav)
MP3 (.mp3)
M4A (.m4a)
FLAC (.flac)
OGG (.ogg)
PCM (.pcm)

推荐采样率：16kHz
过高或过低的采样率可能导致识别性能下降。

3.1.2 文件上传步骤

在主界面找到 “ASR 语音识别” 区域；
点击“上传音频”按钮；
从本地选择一个支持格式的音频文件；
等待上传进度条完成。

上传成功后，音频波形图将在下方预览区显示。

3.1.3 参数配置

在开始识别前，建议调整以下参数：

参数	推荐值	说明
批量大小（秒）	300	最大支持 600 秒（10 分钟），过长会影响内存占用
识别语言	auto	自动检测语种；若明确为中文可设为`zh`提升准确性

支持的语言选项：

auto- 自动识别
zh- 中文
en- 英文
yue- 粤语
ja- 日语
ko- 韩语

混合语言内容建议保持auto模式。

3.1.4 开始识别

点击“开始识别”按钮，系统将根据当前配置调用对应模型进行处理。识别过程中进度条会动态更新。

处理时间取决于：

音频长度
模型类型（Large 更慢但更准）
运行设备（GPU 明显快于 CPU）

3.1.5 查看识别结果

识别完成后，结果分为三个标签页展示：

文本结果

纯文本形式输出，支持一键复制，适用于直接引用或文档整理。

详细信息

JSON 格式结构化数据，包含每句话的置信度、时间戳、语言标签等元信息，适合程序解析。

时间戳

按[序号] 开始时间 - 结束时间 (时长)格式列出每个语义单元的时间区间，常用于视频剪辑定位。

3.2 方式二：浏览器实时录音识别

3.2.1 录音准备

点击“麦克风录音”按钮，浏览器将弹出权限请求框。请务必点击“允许”授予权限，否则无法采集声音。

3.2.2 开始录音

授权成功后，再次点击按钮开始录音。说话时可见声波动画反馈输入强度。

点击“停止录音”结束录制，系统自动保存临时音频文件。

3.2.3 识别与查看

与上传文件流程一致，点击“开始识别”即可处理录音内容，结果展示方式完全相同。

提示：录音环境应尽量安静，避免背景噪音干扰识别效果。

4. 结果导出与高级功能

4.1 下载识别结果

识别结束后，可通过三个按钮下载不同格式的结果文件：

按钮	输出格式	应用场景
下载文本	.txt	简单文字提取、笔记整理
下载 JSON	.json	数据分析、接口对接
下载 SRT	.srt	视频字幕嵌入、剪辑辅助

所有文件均打包保存至指定输出目录。

4.2 输出路径管理

每次识别都会创建独立的时间戳子目录，路径如下：

outputs/outputs_YYYYMMDDHHMMSS/

例如：

outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # JSON 格式结果 ├── text_001.txt # 纯文本结果 └── subtitle_001.srt # SRT 字幕文件

这种命名机制避免了文件覆盖问题，方便后续归档与检索。

4.3 高级参数调优

批量大小调整

控制每次处理的最大音频时长（单位：秒）：

默认值：300（5分钟）
可调范围：60 ~ 600

建议：

短音频（<5min）：保持默认
超长音频（>10min）：分段上传处理

语言设置策略

合理选择语言可显著提升识别准确率：

全中文内容 →zh
全英文内容 →en
中英混杂 →auto
粤语/日语/韩语 → 对应语种标识

时间戳应用价值

启用时间戳后，可用于：

自动生成视频字幕
快速定位演讲重点片段
配合剪辑软件实现音文同步

5. 常见问题与解决方案

5.1 识别结果不准确

可能原因及对策：

语言选择错误→ 切换至正确语种或使用auto
音频质量差→ 使用降噪工具预处理（如 Audacity）
发音模糊或语速过快→ 适当放慢语速，清晰吐字
背景噪音大→ 更换安静环境或启用 VAD 过滤非语音段

5.2 识别速度慢

排查方向：

是否正在使用 CPU 模式？→ 尽量使用 CUDA（GPU）加速
音频是否超过 5 分钟？→ 分割为多个小段处理
是否选择了 Paraformer-Large 模型？→ 如追求速度可切换为 SenseVoice-Small

5.3 无法上传音频文件

检查项：

文件格式是否在支持列表内（优先使用 MP3/WAV）
文件大小是否过大（建议小于 100MB）
浏览器是否存在兼容性问题（推荐 Chrome/Firefox）

5.4 实时录音无声

解决方法：

确认浏览器已授予麦克风权限
检查操作系统音频设置，确认麦克风工作正常
调整系统录音音量至合适水平

5.5 输出乱码或异常字符

应对措施：

确保音频编码规范（推荐 PCM 或标准 MP3 编码）
检查语言设置是否匹配实际内容
尝试转换音频格式后再上传

5.6 提高识别准确率的综合建议

使用16kHz 采样率的高质量音频
减少环境噪声，使用指向性麦克风
发音清晰，避免连读或吞音
正确设置识别语言
启用 PUNC 和 VAD 增强模块

6. 服务管理与退出

6.1 停止 WebUI 服务

在终端中按下快捷键：

Ctrl + C

或通过命令强制终止进程：

pkill -f "python.*app.main"

停止后容器将退出，相关资源释放。

6.2 快捷键汇总

操作	快捷键
停止服务	Ctrl + C
刷新页面	F5 或 Ctrl + R
复制文本	Ctrl + C

7. 技术支持与更新日志

7.1 技术支持渠道

开发者：科哥
联系方式：微信：312088415
反馈要求：请提供具体操作步骤、错误截图及日志信息以便快速定位问题

7.2 更新日志（v1.0.0 - 2026-01-04）

✅ 首次发布版本
✅ 支持中文语音识别（含多语种自动检测）
✅ 支持多种音频格式上传
✅ 集成实时录音功能
✅ 支持 TXT/JSON/SRT 多格式导出
✅ 采用紫蓝渐变主题 UI，提升视觉体验

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。