news 2026/5/12 21:36:23

FunASR语音识别WebUI使用指南|科哥镜像开箱即用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
FunASR语音识别WebUI使用指南|科哥镜像开箱即用

FunASR语音识别WebUI使用指南|科哥镜像开箱即用

1. 快速开始与环境准备

1.1 镜像简介

FunASR 语音识别 WebUI 是基于开源项目 FunASR 的二次开发成果,由开发者“科哥”构建并优化。该镜像集成了speech_ngram_lm_zh-cn语言模型,并封装了 Paraformer-Large 和 SenseVoice-Small 等主流中文语音识别模型,支持高精度离线识别、标点恢复、时间戳输出和实时录音功能。

本镜像最大特点是开箱即用,无需复杂的依赖安装或模型下载流程,适用于语音转写、字幕生成、会议记录等多种场景。

1.2 启动服务

确保已安装 Docker 环境后,执行以下命令拉取并运行镜像:

# 拉取镜像(示例地址,请根据实际替换) sudo docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6 # 创建模型挂载目录 mkdir -p ./funasr-runtime-resources/models # 启动容器(映射端口7860用于Web访问) sudo docker run -p 7860:7860 -it --privileged=true \ -v $PWD/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6

注意:若服务器具备 GPU 支持,建议使用 CUDA 版本镜像以提升识别速度。

1.3 访问 WebUI

服务启动成功后,在浏览器中打开:

http://localhost:7860

如需远程访问,请将localhost替换为服务器 IP 地址:

http://<服务器IP>:7860

页面加载完成后即可进入 FunASR WebUI 主界面。


2. 界面功能详解

2.1 头部信息区域

页面顶部显示系统基本信息:

  • 标题:FunASR 语音识别 WebUI
  • 描述:基于 FunASR 的中文语音识别系统
  • 版权信息:webUI 二次开发 by 科哥 | 微信:312088415

此部分为固定展示内容,便于用户确认当前使用的版本来源。

2.2 控制面板(左侧)

2.2.1 模型选择

提供两种核心 ASR 模型供切换:

  • Paraformer-Large:大参数量模型,识别准确率更高,适合对质量要求高的场景。
  • SenseVoice-Small:轻量级模型,响应速度快,适合低延迟需求或资源受限环境。

默认选中 SenseVoice-Small,可根据实际需要手动切换。

2.2.2 设备选择

决定推理所用硬件设备:

  • CUDA:启用 GPU 加速,显著提升长音频处理效率(推荐有显卡时使用)。
  • CPU:通用模式,兼容性好,适合无独立显卡的设备。

系统会自动检测可用设备并默认勾选最优选项。

2.2.3 功能开关

三项关键增强功能可自由启停:

  • 启用标点恢复 (PUNC):在识别结果中自动添加句号、逗号等标点符号,提升可读性。
  • 启用语音活动检测 (VAD):自动分割静音段落,仅保留有效语音片段进行识别。
  • 输出时间戳:为每个词或句子标注起止时间,便于后期编辑与同步。

建议日常使用时开启全部功能以获得完整信息。

2.2.4 模型状态指示

实时显示当前模型加载情况:

  • 模型已加载:表示模型初始化完成,可正常识别。
  • 模型未加载:需点击“加载模型”按钮重新加载。

首次启动或更换模型后可能需要短暂加载时间。

2.2.5 操作按钮

包含两个实用操作:

  • 加载模型:强制重新加载当前配置的模型,适用于修改设置后的刷新。
  • 刷新:更新界面状态显示,检查设备与模型连接情况。

3. 使用流程详解

3.1 方式一:上传音频文件识别

3.1.1 支持格式与推荐参数

支持的音频格式包括:

  • WAV (.wav)
  • MP3 (.mp3)
  • M4A (.m4a)
  • FLAC (.flac)
  • OGG (.ogg)
  • PCM (.pcm)

推荐采样率:16kHz
过高或过低的采样率可能导致识别性能下降。

3.1.2 文件上传步骤
  1. 在主界面找到 “ASR 语音识别” 区域;
  2. 点击“上传音频”按钮;
  3. 从本地选择一个支持格式的音频文件;
  4. 等待上传进度条完成。

上传成功后,音频波形图将在下方预览区显示。

3.1.3 参数配置

在开始识别前,建议调整以下参数:

参数推荐值说明
批量大小(秒)300最大支持 600 秒(10 分钟),过长会影响内存占用
识别语言auto自动检测语种;若明确为中文可设为zh提升准确性

支持的语言选项:

  • auto- 自动识别
  • zh- 中文
  • en- 英文
  • yue- 粤语
  • ja- 日语
  • ko- 韩语

混合语言内容建议保持auto模式。

3.1.4 开始识别

点击“开始识别”按钮,系统将根据当前配置调用对应模型进行处理。识别过程中进度条会动态更新。

处理时间取决于:

  • 音频长度
  • 模型类型(Large 更慢但更准)
  • 运行设备(GPU 明显快于 CPU)
3.1.5 查看识别结果

识别完成后,结果分为三个标签页展示:

文本结果

纯文本形式输出,支持一键复制,适用于直接引用或文档整理。

详细信息

JSON 格式结构化数据,包含每句话的置信度、时间戳、语言标签等元信息,适合程序解析。

时间戳

[序号] 开始时间 - 结束时间 (时长)格式列出每个语义单元的时间区间,常用于视频剪辑定位。


3.2 方式二:浏览器实时录音识别

3.2.1 录音准备

点击“麦克风录音”按钮,浏览器将弹出权限请求框。请务必点击“允许”授予权限,否则无法采集声音。

3.2.2 开始录音

授权成功后,再次点击按钮开始录音。说话时可见声波动画反馈输入强度。

点击“停止录音”结束录制,系统自动保存临时音频文件。

3.2.3 识别与查看

与上传文件流程一致,点击“开始识别”即可处理录音内容,结果展示方式完全相同。

提示:录音环境应尽量安静,避免背景噪音干扰识别效果。


4. 结果导出与高级功能

4.1 下载识别结果

识别结束后,可通过三个按钮下载不同格式的结果文件:

按钮输出格式应用场景
下载文本.txt简单文字提取、笔记整理
下载 JSON.json数据分析、接口对接
下载 SRT.srt视频字幕嵌入、剪辑辅助

所有文件均打包保存至指定输出目录。

4.2 输出路径管理

每次识别都会创建独立的时间戳子目录,路径如下:

outputs/outputs_YYYYMMDDHHMMSS/

例如:

outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # JSON 格式结果 ├── text_001.txt # 纯文本结果 └── subtitle_001.srt # SRT 字幕文件

这种命名机制避免了文件覆盖问题,方便后续归档与检索。

4.3 高级参数调优

批量大小调整

控制每次处理的最大音频时长(单位:秒):

  • 默认值:300(5分钟)
  • 可调范围:60 ~ 600

建议

  • 短音频(<5min):保持默认
  • 超长音频(>10min):分段上传处理
语言设置策略

合理选择语言可显著提升识别准确率:

  • 全中文内容 →zh
  • 全英文内容 →en
  • 中英混杂 →auto
  • 粤语/日语/韩语 → 对应语种标识
时间戳应用价值

启用时间戳后,可用于:

  • 自动生成视频字幕
  • 快速定位演讲重点片段
  • 配合剪辑软件实现音文同步

5. 常见问题与解决方案

5.1 识别结果不准确

可能原因及对策

  1. 语言选择错误→ 切换至正确语种或使用auto
  2. 音频质量差→ 使用降噪工具预处理(如 Audacity)
  3. 发音模糊或语速过快→ 适当放慢语速,清晰吐字
  4. 背景噪音大→ 更换安静环境或启用 VAD 过滤非语音段

5.2 识别速度慢

排查方向

  1. 是否正在使用 CPU 模式?→ 尽量使用 CUDA(GPU)加速
  2. 音频是否超过 5 分钟?→ 分割为多个小段处理
  3. 是否选择了 Paraformer-Large 模型?→ 如追求速度可切换为 SenseVoice-Small

5.3 无法上传音频文件

检查项

  • 文件格式是否在支持列表内(优先使用 MP3/WAV)
  • 文件大小是否过大(建议小于 100MB)
  • 浏览器是否存在兼容性问题(推荐 Chrome/Firefox)

5.4 实时录音无声

解决方法

  1. 确认浏览器已授予麦克风权限
  2. 检查操作系统音频设置,确认麦克风工作正常
  3. 调整系统录音音量至合适水平

5.5 输出乱码或异常字符

应对措施

  • 确保音频编码规范(推荐 PCM 或标准 MP3 编码)
  • 检查语言设置是否匹配实际内容
  • 尝试转换音频格式后再上传

5.6 提高识别准确率的综合建议

  1. 使用16kHz 采样率的高质量音频
  2. 减少环境噪声,使用指向性麦克风
  3. 发音清晰,避免连读或吞音
  4. 正确设置识别语言
  5. 启用 PUNC 和 VAD 增强模块

6. 服务管理与退出

6.1 停止 WebUI 服务

在终端中按下快捷键:

Ctrl + C

或通过命令强制终止进程:

pkill -f "python.*app.main"

停止后容器将退出,相关资源释放。

6.2 快捷键汇总

操作快捷键
停止服务Ctrl + C
刷新页面F5 或 Ctrl + R
复制文本Ctrl + C

7. 技术支持与更新日志

7.1 技术支持渠道

  • 开发者:科哥
  • 联系方式:微信:312088415
  • 反馈要求:请提供具体操作步骤、错误截图及日志信息以便快速定位问题

7.2 更新日志(v1.0.0 - 2026-01-04)

  • ✅ 首次发布版本
  • ✅ 支持中文语音识别(含多语种自动检测)
  • ✅ 支持多种音频格式上传
  • ✅ 集成实时录音功能
  • ✅ 支持 TXT/JSON/SRT 多格式导出
  • ✅ 采用紫蓝渐变主题 UI,提升视觉体验

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 3:54:46

一键启动Qwen3-Embedding-4B:零配置搭建语义搜索服务

一键启动Qwen3-Embedding-4B&#xff1a;零配置搭建语义搜索服务 1. 引言&#xff1a;语义搜索进入高效部署时代 随着大模型技术的持续演进&#xff0c;文本嵌入&#xff08;Text Embedding&#xff09;已成为构建智能检索、推荐系统和知识管理平台的核心能力。然而&#xff…

作者头像 李华
网站建设 2026/5/12 10:16:43

手机模型HY-MT1.5-1.8B:云端GPU性能翻倍,成本降80%

手机模型HY-MT1.5-1.8B&#xff1a;云端GPU性能翻倍&#xff0c;成本降80% 你是不是也遇到过这种情况&#xff1a;在手机上跑一个AI翻译模型&#xff0c;输入一句话要等好几秒才出结果&#xff1f;或者想做个实时翻译小工具&#xff0c;却发现本地设备卡得根本没法用&#xff…

作者头像 李华
网站建设 2026/5/1 20:25:26

Sambert-HiFiGAN成本优化:如何在低配GPU上高效运行

Sambert-HiFiGAN成本优化&#xff1a;如何在低配GPU上高效运行 1. 背景与挑战&#xff1a;工业级TTS的部署瓶颈 随着语音合成技术的快速发展&#xff0c;基于深度学习的文本转语音&#xff08;TTS&#xff09;系统已广泛应用于智能客服、有声读物、虚拟主播等场景。阿里达摩院…

作者头像 李华
网站建设 2026/5/5 20:35:21

Qwen3-Embedding-0.6B部署精选:三大免配置平台实测推荐

Qwen3-Embedding-0.6B部署精选&#xff1a;三大免配置平台实测推荐 近年来&#xff0c;随着大模型在语义理解、检索增强和多模态任务中的广泛应用&#xff0c;高质量的文本嵌入&#xff08;Text Embedding&#xff09;模型成为构建智能系统的核心组件之一。Qwen3-Embedding-0.…

作者头像 李华
网站建设 2026/5/9 8:16:25

AutoGen Studio功能实测:基于Qwen3-4B的智能代理体验

AutoGen Studio功能实测&#xff1a;基于Qwen3-4B的智能代理体验 1. 背景与技术选型 近年来&#xff0c;AI Agent&#xff08;智能代理&#xff09;已成为大模型应用落地的核心范式之一。从自动化任务执行到多角色协同决策&#xff0c;AI Agent 正在重塑软件开发、客户服务乃…

作者头像 李华
网站建设 2026/5/2 4:17:51

不会代码也能玩转Sambert?云端图形界面,小白5分钟生成情感语音

不会代码也能玩转Sambert&#xff1f;云端图形界面&#xff0c;小白5分钟生成情感语音 你是不是也遇到过这样的问题&#xff1a;想做一个儿童早教类的APP&#xff0c;希望加入生动的故事朗读功能&#xff0c;让小朋友听得更投入、记得更牢&#xff1f;但找外包团队做语音合成&…

作者头像 李华