零基础实战：用SenseVoiceSmall实现带情感的语音转文字-编程阁

零基础实战：用SenseVoiceSmall实现带情感的语音转文字

1. 为什么这次语音识别不一样？

你有没有试过把一段会议录音丢进普通语音转文字工具，结果只得到干巴巴的一串字？没有标点、没有停顿、更别说听出说话人是兴奋还是疲惫——就像把一幅有光影、有情绪的油画，硬生生压成黑白线稿。

SenseVoiceSmall 不是这样。它不只“听见”声音，还“读懂”声音里的情绪起伏、环境变化，甚至能分辨出哪段是笑声、哪段是背景音乐、哪句带着笑意说出来的。

这不是未来科技，而是你现在就能跑起来的开源模型。它来自阿里达摩院，轻量但强大，支持中、英、日、韩、粤五种语言，还能在消费级显卡（比如RTX 4090D）上秒级完成识别。更重要的是——它自带 Gradio WebUI，不用写一行部署代码，上传音频就能看到带情感标签的结果。

这篇文章就是为你写的：
完全零基础，不需要懂语音模型原理
不需要配置环境，镜像已预装全部依赖
不需要调参，所有设置都已优化好
重点讲清楚：怎么用、结果怎么看、情感和事件标签到底意味着什么

读完你就能自己上传一段朋友发来的语音，立刻知道他说那句话时是开心、犹豫，还是被突然的掌声打断。

2. 快速启动：三步打开你的语音理解控制台

2.1 确认服务是否已在运行

大多数情况下，镜像启动后 WebUI 会自动运行。你可以直接跳到第2.3节，在本地浏览器访问。

如果页面打不开，或者终端提示“端口被占用”，说明服务未启动。别担心，只需执行以下两步：

打开终端，安装两个关键依赖（它们通常已预装，但补全更稳妥）：

pip install av gradio

启动 WebUI 服务：

python app_sensevoice.py

你会看到类似这样的输出：

Running on local URL: http://0.0.0.0:6006 To create a public link, set `share=True` in `launch()`.

这表示服务已在后台运行，监听 6006 端口。

2.2 本地访问 WebUI 的正确方式

由于云平台默认限制外部直接访问，你需要在自己电脑的终端（不是镜像里的终端）建立 SSH 隧道。请将下面命令中的[SSH地址]和[端口号]替换为你的实际信息：

ssh -L 6006:127.0.0.1:6006 -p [端口号] root@[SSH地址]

输入密码后，只要终端保持连接状态，隧道就一直有效。

小贴士：如果你用的是 Windows，推荐用 Windows Terminal 或 PowerShell；Mac 和 Linux 用户直接用系统终端即可。成功建立隧道后，不要关闭这个终端窗口。

2.3 打开网页，开始第一次识别

在你本地电脑的浏览器中，打开这个地址：
http://127.0.0.1:6006

你会看到一个简洁的界面：左侧是音频上传区和语言选择下拉框，右侧是大块文本框，标题写着“识别结果 (含情感与事件标签)”。

现在，找一段不超过 30 秒的音频试试——可以是手机录的日常对话、一段播客剪辑，甚至是你自己说的几句话。点击“上传音频”，选中文件，再点“开始 AI 识别”。

几秒钟后，右侧就会出现结果。别急着扫读文字，先注意那些方括号里的内容，比如[HAPPY]、[APPLAUSE]、[LAUGHTER]——这些就是 SenseVoiceSmall 看懂的“声音情绪”和“环境信号”。

3. 看懂结果：富文本不只是加标签，而是还原真实语境

3.1 普通语音识别 vs SenseVoiceSmall 的输出对比

我们用同一段真实录音做对比（已脱敏处理）：

普通 ASR 工具输出：

今天项目上线了大家辛苦了记得休息一下明早九点站会

SenseVoiceSmall 输出：

[HAPPY]今天项目上线了！[APPLAUSE]大家辛苦了～[SAD]记得休息一下…[BGM]明早九点站会。

看到区别了吗？

感叹号和波浪号不是人工加的，是模型根据语调强度和停顿节奏自动判断并插入的标点；
[HAPPY]表示这句话整体语气轻快上扬；
[APPLAUSE]是在“大家辛苦了”之后识别到的短暂掌声；
[SAD]出现在“记得休息一下”前，因为语速变慢、音调下沉；
[BGM]标记了背景中持续存在的轻音乐。

这已经不是“转文字”，而是“重建语境”。

3.2 情感标签有哪些？它们代表什么

SenseVoiceSmall 当前支持以下 5 类情感标签，全部基于声学特征（基频、能量、语速、频谱倾斜度等）实时判断，无需额外文本提示：

标签	含义	典型场景举例
`[HAPPY]`	开心、轻松、兴奋	“太棒了！”、“搞定！”、“终于完成了！”
`[ANGRY]`	愤怒、不满、急躁	“这根本不行！”、“谁改的这里？”、“重来！”
`[SAD]`	悲伤、疲惫、低落	“算了…”、“我尽力了”、“有点累”
`[FEAR]`	紧张、担忧、不安	“会不会出问题？”、“时间够吗？”、“希望顺利”
`[NEUTRAL]`	中性、平静、无明显情绪	陈述事实、朗读文档、标准播报

注意：[NEUTRAL]不代表“没情绪”，而是模型判断当前语音未表现出显著情感倾向。它常出现在专业汇报、新闻播报等场景中。

3.3 声音事件标签：让转录结果“活”起来

除了人的情绪，模型还能识别环境中的非语音声音。这些事件标签帮助你理解音频发生的上下文：

标签	含义	实际意义
`[APPLAUSE]`	掌声	表示发言结束、获得认可、现场互动发生
`[LAUGHTER]`	笑声	可能是回应幽默、缓解紧张、表达认同
`[CRY]`	哭声	强烈情绪释放，需结合前后文判断是感动还是痛苦
`[BGM]`	背景音乐	提示音频可能来自视频、直播或带配乐的采访
`[NOISE]`	环境杂音	如键盘敲击、翻纸声、空调声，反映录制环境质量
`[SILENCE]`	长停顿（>1.5秒）	可能是思考、等待回应、或网络卡顿

这些标签不是孤立存在的。它们和文字一起构成“富文本流”，让你一眼看出：
→ 这段话是在热烈掌声中说的，还是在安静会议室里低声讲的；
→ 那个停顿是深思熟虑，还是网络断了；
→ 笑声出现在哪句话之后，暗示了听众的真实反应。

4. 实战技巧：让识别更准、更稳、更贴合你的需求

4.1 语言选择：自动识别足够好，但手动指定更可靠

界面上的语言下拉框提供auto（自动）、zh（中文）、en（英文）、yue（粤语）、ja（日语）、ko（韩语）六种选项。

日常使用推荐auto：模型对中英文混合、带口音的普通话识别准确率很高，适合会议、访谈等真实场景。
但遇到以下情况，请手动选择：
- 音频纯粤语/日语/韩语，且语速较快 → 选对应语言，避免误判为中文；
- 中英夹杂但以英文为主（如技术分享）→ 选en，能更好识别专业术语；
- 方言较重（如带闽南口音的普通话）→ 选zh并配合稍慢语速，效果优于auto。

4.2 音频准备：不求完美，但避开三个常见坑

模型对音频质量有一定鲁棒性，但以下三点会显著影响情感和事件识别效果：

❌避免过度压缩的 MP3：微信转发的语音、抖音下载的音频常被二次压缩，丢失高频细节（而笑声、掌声的关键频段就在高频）。优先使用原始 WAV 或高质量 MP3（比特率 ≥128kbps）。
❌避免长时间静音开头/结尾：超过 3 秒的纯静音可能干扰 VAD（语音活动检测），导致首句漏识别。用 Audacity 等免费工具裁掉头尾空白即可。
采样率不必强求 16kHz：镜像已集成av和ffmpeg，会自动重采样。你传 44.1kHz 的音乐片段、8kHz 的电话录音，它都能处理。

4.3 结果清洗：一键让富文本更易读

原始输出中，情感和事件标签是嵌入在文字流里的，比如：
[HAPPY]太好了！[APPLAUSE]明天就发版[LAUGHTER]

这对程序解析友好，但人工阅读略显干扰。你可以用一行 Python 快速清洗成更自然的格式：

from funasr.utils.postprocess_utils import rich_transcription_postprocess raw = "[HAPPY]太好了！[APPLAUSE]明天就发版[LAUGHTER]" clean = rich_transcription_postprocess(raw) print(clean) # 输出：太好了！（开心） 明天就发版（笑声）

这个函数会：

把[HAPPY]→（开心）
把[APPLAUSE]→（掌声）
合并连续多个事件（如[LAUGHTER][APPLAUSE]→（笑声、掌声））
自动添加空格分隔，避免文字粘连

你不需要自己写，这个函数已随镜像预装，随时可调用。

5. 超越基础：三个马上能用的进阶思路

5.1 情感趋势分析：从单句判断到整段情绪图谱

一段 5 分钟的客户投诉录音，光看单句标签不够。你可以用脚本批量处理每 10 秒片段，统计[ANGRY]、[SAD]出现频次，生成简易情绪热力图：

import json from funasr import AutoModel model = AutoModel(model="iic/SenseVoiceSmall", trust_remote_code=True, device="cuda:0") # 将长音频按10秒切片（伪代码，实际可用pydub） segments = split_audio("complaint.wav", chunk_duration=10) emotion_counts = {"HAPPY": 0, "ANGRY": 0, "SAD": 0, "FEAR": 0, "NEUTRAL": 0} for seg_path in segments: res = model.generate(input=seg_path, language="zh") text = res[0]["text"] if res else "" # 统计标签出现次数 for emo in ["HAPPY", "ANGRY", "SAD", "FEAR", "NEUTRAL"]: emotion_counts[emo] += text.count(f"[{emo}]") print("情绪分布：", emotion_counts) # 输出：{'HAPPY': 2, 'ANGRY': 18, 'SAD': 7, 'FEAR': 3, 'NEUTRAL': 5}

这比单纯听录音更快定位情绪爆发点，适合客服质检、心理咨询辅助等场景。

5.2 事件驱动剪辑：自动提取高光时刻

想从一小时的内部分享会中，快速找出所有“掌声”和“笑声”片段？不用手动拖进度条：

# 用 ffmpeg 提取所有 [APPLAUSE] 前后3秒的片段 # （需先用 SenseVoiceSmall 生成带时间戳的 SRT 或 JSONL 格式结果） # 此处简化为：识别后用正则匹配 [APPLAUSE] 位置，再调用 ffmpeg 截取 import subprocess subprocess.run([ "ffmpeg", "-ss", "124.5", "-i", "talk.wav", "-t", "6", "-c", "copy", "applause_1.mp3" ])

配合 Gradio 的gr.Audio组件，你甚至可以做一个“一键高光剪辑”按钮，点击就导出所有笑声片段合集。

5.3 多语言会议纪要：自动区分发言人+语言+情绪

SenseVoiceSmall 支持多语种，但不直接做说话人分离（Speaker Diarization）。不过，你可以利用它的语言识别能力，做轻量级区分：

输入一段中英混杂的会议录音；
模型会自动在中文句子前打[zh]、英文前打[en]（需开启language="auto"）；
再结合[HAPPY]、[ANGRY]等标签，就能大致还原：
[zh][HAPPY]王总：这个方案我觉得很可行！
[en][NEUTRAL]John：I’ll prepare the technical spec.
[zh][SAD]李经理：但预算可能超了…

虽不如专业声纹分离精准，但对日常会议纪要、跨团队协作记录，已足够清晰。