如何保存Embedding？outputs目录配置实战详解-编程阁

如何保存Embedding？outputs目录配置实战详解

1. 引言

在语音识别与声纹验证领域，提取高质量的说话人特征向量（即 Embedding）是实现身份比对、聚类分析和数据库构建的核心步骤。CAM++ 是一个基于深度学习的中文说话人验证系统，由开发者“科哥”基于 ModelScope 平台模型二次开发而成，具备高精度、低延迟的特点。

本文聚焦于如何正确配置并使用 outputs 目录来持久化保存 Embedding 向量，结合实际操作流程、文件结构解析与工程实践建议，帮助用户掌握从语音输入到特征存储的完整链路。无论你是初次使用者还是希望进行二次开发的技术人员，都能从中获得可落地的操作指南。

2. CAM++ 系统简介

2.1 系统功能概述

CAM++ 说话人识别系统基于 DAMO 团队发布的speech_campplus_sv_zh-cn_16k-common模型构建，支持以下核心功能：

✅说话人验证：判断两段音频是否来自同一说话人
✅特征提取：生成 192 维度的 NumPy 格式 Embedding 向量
✅结果持久化：自动将 Embedding 和验证结果保存至本地outputs目录

该系统通过 WebUI 提供图形化交互界面，部署简单，适合科研测试与轻量级生产环境应用。

2.2 访问方式与启动命令

系统运行于本地服务器，默认端口为7860，可通过浏览器访问：

http://localhost:7860

启动指令如下：

cd /root/speech_campplus_sv_zh-cn_16k bash scripts/start_app.sh

或使用一键脚本：

/bin/bash /root/run.sh

成功启动后即可进入 Web 界面进行操作。

3. 特征向量（Embedding）的生成与用途

3.1 什么是 Embedding？

Embedding 是指将一段语音信号映射为固定维度的数值向量（本系统中为 192 维），该向量蕴含了说话人的声学特征（如音色、语调等），具有以下特性：

唯一性：不同说话人生成的向量差异显著
稳定性：同一说话人在不同时间录制的语音生成相近向量
可计算性：可通过余弦相似度等方式量化两个向量之间的“相似程度”

3.2 Embedding 的典型应用场景

应用场景	说明
声纹登录	用户上传语音 → 提取 Embedding → 与注册库比对
多说话人聚类	对会议录音中的多个片段做聚类，区分不同发言者
构建声纹数据库	批量提取大量语音的 Embedding，形成索引库
身份核验系统	在金融、安防等领域用于生物特征认证

因此，能否可靠地保存 Embedding 文件，直接影响后续任务的可行性。

4. 输出目录（outputs）配置详解

4.1 输出路径结构设计

每次执行“说话人验证”或“特征提取”操作时，若勾选“保存结果到 outputs 目录”，系统会自动生成一个以时间戳命名的子目录，避免文件覆盖。标准输出结构如下：

outputs/ └── outputs_20260104223645/ # 时间戳格式：YYYYMMDDHHMMSS ├── result.json # 验证结果元数据 └── embeddings/ # 存放所有 .npy 格式的 Embedding 文件 ├── audio1.npy └── audio2.npy

提示：时间戳目录确保每次运行独立隔离，便于版本管理和实验回溯。

4.2 result.json 文件内容解析

当完成一次验证任务后，result.json将记录关键决策信息，示例如下：

{ "相似度分数": "0.8523", "判定结果": "是同一人", "使用阈值": "0.31", "输出包含 Embedding": "是" }

字段说明：

字段名	含义
相似度分数	两段语音 Embedding 的余弦相似度值（0~1）
判定结果	基于阈值的最终判断结果
使用阈值	当前设置的相似度判定阈值
输出包含 Embedding	是否已保存对应的`.npy`文件

此文件可用于自动化流程中的状态读取与审计追踪。

4.3 Embedding 文件格式说明

所有保存的 Embedding 均采用.npy格式（NumPy 二进制数组），具有高效读写、跨平台兼容的优势。

单个文件提取示例

import numpy as np # 加载单个 Embedding emb = np.load('outputs/outputs_20260104223645/embeddings/audio1.npy') print(emb.shape) # 输出: (192,) print(emb.dtype) # 输出: float32

批量加载多个 Embedding

import os import numpy as np embeddings_dir = 'outputs/outputs_20260104223645/embeddings/' embs = [] for file in sorted(os.listdir(embeddings_dir)): if file.endswith('.npy'): path = os.path.join(embeddings_dir, file) emb = np.load(path) embs.append(emb) # 转换为矩阵形式 (N, 192) embs_matrix = np.stack(embs) print(embs_matrix.shape) # 如有3个文件 → (3, 192)

5. 实战操作：保存 Embedding 的完整流程

5.1 功能入口选择

打开浏览器访问http://localhost:7860
在顶部导航栏点击「特征提取」标签页

5.2 单文件特征提取与保存

操作步骤

点击「选择文件」上传一段 WAV 音频（推荐 16kHz）
勾选「保存 Embedding 到 outputs 目录」
点击「提取特征」按钮
查看返回的统计信息（维度、均值、标准差等）

验证输出文件是否存在

执行完成后，进入容器或主机查看输出目录：

ls -l outputs/ # 应看到类似 outputs_20260104223645 的新目录 ls -l outputs/outputs_20260104223645/embeddings/ # 应存在一个 .npy 文件，名称与上传文件一致

5.3 批量提取与自动化处理

操作步骤

进入「批量提取」区域
多选多个音频文件（支持拖拽）
勾选「保存 Embedding 到 outputs 目录」
点击「批量提取」

系统将依次处理每个文件，并在embeddings/目录下生成对应.npy文件。

成功状态反馈

✅ 成功：显示 “Success (192,)”
❌ 失败：显示错误原因（如格式不支持、采样率不符）

建议：提前统一音频格式为WAV, 16kHz, 单声道，可大幅提升成功率。

6. 高级配置与最佳实践

6.1 自定义输出路径（可选）

默认情况下，输出目录为项目根目录下的outputs/。如需更改路径，可在启动脚本中修改环境变量或代码中的硬编码路径。

例如，在start_app.sh中添加：

export OUTPUT_DIR="/data/sv_outputs"

然后在 Python 后端读取该变量作为输出根路径。

6.2 设置合理的相似度阈值

系统默认阈值为0.31，但应根据业务需求调整：

场景	推荐阈值	说明
安防门禁	0.6 ~ 0.7	宁可误拒也不误放
内部考勤	0.4 ~ 0.5	平衡准确率与用户体验
初步筛选	0.2 ~ 0.3	允许更多匹配候选

可通过前端滑块动态调节并测试效果。

6.3 数据清理策略

由于每次运行都会创建新目录，长期运行可能导致磁盘占用过高。建议定期清理旧数据：

# 删除 7 天前的输出目录 find outputs/ -name "outputs_*" -type d -mtime +7 -exec rm -rf {} \;

也可编写定时任务（cron job）自动执行。

7. 常见问题与解决方案

7.1 Q: 为什么没有生成 .npy 文件？

可能原因及解决方法：

❌ 未勾选“保存 Embedding”选项 → 请确认已勾选
❌ 权限不足 → 检查outputs/目录是否有写权限
❌ 磁盘空间满 → 清理历史文件或扩容
❌ 文件名含特殊字符 → 更换为英文命名

7.2 Q: .npy 文件无法加载？

尝试以下修复方式：

# 显式指定允许 pickle（某些 .npy 可能包含对象） emb = np.load('embedding.npy', allow_pickle=True)

或重新导出为安全格式：

# 安全保存方式 np.save('clean_embedding.npy', emb, allow_pickle=False)

7.3 Q: 如何批量计算相似度？

利用已保存的.npy文件，可编写脚本批量比对：

import os import numpy as np def cosine_similarity(emb1, emb2): return np.dot(emb1, emb2) / (np.linalg.norm(emb1) * np.linalg.norm(emb2)) dir_a = 'outputs/run1/embeddings/' dir_b = 'outputs/run2/embeddings/' files_a = sorted([f for f in os.listdir(dir_a) if f.endswith('.npy')]) files_b = sorted([f for f in os.listdir(dir_b) if f.endswith('.npy')]) for fa, fb in zip(files_a, files_b): ea = np.load(os.path.join(dir_a, fa)) eb = np.load(os.path.join(dir_b, fb)) sim = cosine_similarity(ea, eb) print(f"{fa} vs {fb}: {sim:.4f}")

8. 总结

本文围绕CAM++ 说话人识别系统中 Embedding 的保存机制与 outputs 目录配置展开详细讲解，涵盖以下核心要点：

Embedding 的本质与价值：192 维向量承载说话人身份特征，是后续分析的基础。
输出目录结构设计：时间戳命名机制保障数据隔离，防止覆盖。
文件格式与加载方式：.npy格式高效且通用，Python 可直接读取。
实战操作流程：从单文件到批量提取，完整演示如何启用并验证保存功能。
工程优化建议：包括阈值设定、路径管理、磁盘清理等生产级考量。

通过合理配置outputs目录，用户不仅能完成一次性的验证任务，更能积累结构化的声纹数据资产，为后续的聚类、检索、建模打下坚实基础。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

如何保存Embedding？outputs目录配置实战详解