CAM++ Python调用教程：API集成到自有系统的步骤-编程阁

CAM++ Python调用教程：API集成到自有系统的步骤

1. 引言：为什么需要将CAM++集成到自有系统？

你是不是也遇到过这样的场景：手头有个语音验证的需求，比如登录身份核验、客服录音比对、或者智能门禁的声纹识别，但自己从零开发一套说话人识别系统成本太高、周期太长？这时候，一个现成可用的模型系统就显得特别重要。

CAM++ 正是这样一个开箱即用的中文说话人验证工具。它由开发者“科哥”基于达摩院开源模型二次开发而成，支持本地部署、界面操作，并且提供了清晰的功能模块——不仅能判断两段语音是否属于同一人，还能提取192维的声纹特征向量（Embedding），非常适合做后续分析和集成。

但问题来了：如果只是用网页界面点一点，那只能算“体验”。真正有价值的是——把它的能力通过 API 接入你自己的后台系统，实现自动化处理、批量任务调度或与其他业务流程打通。

本文就是为你写的。我们将一步步教你：

如何启动并确认 CAM++ 的服务状态
它暴露了哪些接口可以调用
怎么用 Python 发起请求进行说话人验证和特征提取
实际代码示例 + 常见问题避坑指南

目标很明确：让你在30分钟内，把 CAM++ 的核心能力变成你自己系统的功能之一。

2. 系统准备与服务确认

2.1 启动 CAM++ 服务

首先确保 CAM++ 已正确部署并运行。根据文档提示，进入项目目录后执行：

cd /root/speech_campplus_sv_zh-cn_16k bash scripts/start_app.sh

该脚本会启动一个基于 Gradio 的 Web 应用，默认监听http://localhost:7860。

关键点提醒：
如果你想从外部服务器访问这个接口（比如你在云主机上部署），需要修改启动命令绑定为0.0.0.0地址。通常可以在start_app.sh中找到类似这行：
demo.launch(server_name="0.0.0.0", server_port=7860)
确保开启远程访问权限，并检查防火墙/安全组规则是否放行 7860 端口。

2.2 验证服务是否正常

打开浏览器访问 http://localhost:7860，看到如下界面说明服务已就绪：

同时，你可以尝试上传两个示例音频完成一次“说话人验证”，确保整个流程无报错。

只有当手动测试成功时，才意味着 API 调用的基础环境已经准备好。

3. 探索 CAM++ 的 API 接口结构

虽然 CAM++ 没有提供官方的 RESTful API 文档，但它基于 Gradio 构建，而 Gradio 自动生成了一套可用于程序调用的客户端接口。

我们可以通过查看其前端页面的网络请求，或者直接查阅 Gradio 的底层机制来确定调用方式。

经过分析，CAM++ 主要暴露了两个核心功能接口：

功能	对应路径	输入参数	输出
说话人验证	`/predict/`（Tab 1）	两个音频文件	相似度分数、判定结果
特征提取	`/predict/`（Tab 2）	一个或多个音频文件	Embedding 向量（npy格式）

它们都通过 POST 请求发送到同一个端点，区别在于传递的data和event_data参数不同。

Gradio 使用 JSON 格式封装输入数据，结构大致如下：

{ "data": [ null, // 第一个输入组件（如未使用） {"name": "audio1.wav", "data": "base64..."}, // 音频1 {"name": "audio2.wav", "data": "base64..."} // 音频2 ], "event_data": null, "fn_index": 0, "session_hash": "abc123" }

不过好消息是：我们不需要手动拼接这些复杂结构。Gradio 提供了一个简单方法——使用requests模拟表单提交即可完成调用。

4. Python 调用实战：实现说话人验证

4.1 安装依赖

确保你的 Python 环境安装了基本库：

pip install requests numpy

4.2 封装说话人验证函数

下面是一个完整的 Python 示例，用于调用 CAM++ 的“说话人验证”功能：

import requests import json def verify_speakers(audio_path_1, audio_path_2, api_url="http://localhost:7860/api/predict/"): """ 调用 CAM++ 进行说话人验证 :param audio_path_1: 参考音频路径 :param audio_path_2: 待验证音频路径 :param api_url: Gradio predict 接口地址 :return: 字典形式的结果 """ # 准备两个音频文件 with open(audio_path_1, 'rb') as f1, open(audio_path_2, 'rb') as f2: files = { 'file': ('audio1.wav', f1, 'audio/wav'), 'file2': ('audio2.wav', f2, 'audio/wav') } data = { 'fn_index': 0, 'data': [None], # 占位符，实际文件由 files 上传 'event_data': None } response = requests.post(api_url, files=files, data={'data': json.dumps(data['data'])}) if response.status_code == 200: result = response.json() return result.get("data", ["", ""]) else: raise Exception(f"请求失败，状态码：{response.status_code}, 内容：{response.text}") # 使用示例 try: res = verify_speakers("test_speaker1_a.wav", "test_speaker1_b.wav") similarity_score = res[0] # 相似度分数 decision = res[1] # 判定结果文本 print(f"相似度分数: {similarity_score}") print(f"判定结果: {decision}") except Exception as e: print("调用出错:", str(e))

⚠️ 注意事项：
Gradio 的/api/predict/接口要求文件字段名为file和file2（对应第一个和第二个上传框）
fn_index=0表示调用的是第一个功能块（即“说话人验证”）
返回值res[0]是相似度字符串（如"0.8523"），res[1]是带 ✅ 或 ❌ 的结果描述

5. Python 调用实战：提取声纹特征向量

5.1 单文件特征提取

同样地，我们可以调用“特征提取”功能获取 Embedding。

import requests import numpy as np from io import BytesIO def extract_embedding(audio_path, api_url="http://localhost:7860/api/predict/"): """ 提取单个音频的 Embedding 向量 :param audio_path: 音频文件路径 :param api_url: API 地址（注意 fn_index=1） :return: numpy array (192,) """ with open(audio_path, 'rb') as f: files = {'file': ('audio.wav', f, 'audio/wav')} data = { 'fn_index': 1, 'data': [None], 'event_data': None } response = requests.post( api_url, files=files, data={'data': json.dumps(data['data'])} ) if response.status_code == 200: # 返回的是 .npy 文件的二进制流 npy_bytes = BytesIO(response.content) embedding = np.load(npy_bytes) return embedding else: raise Exception(f"特征提取失败: {response.status_code}, {response.text}") # 使用示例 try: emb = extract_embedding("test_audio.wav") print("Embedding 维度:", emb.shape) # 应输出 (192,) print("前5维数值:", emb[:5]) except Exception as e: print("提取失败:", str(e))

5.2 批量提取建议

目前 CAM++ 的 WebUI 支持多文件上传，但在 API 层面，每次请求只能传一个文件进行特征提取（因为只有一个 file 字段）。因此若需批量处理，建议采用循环调用方式：

audio_files = ["a1.wav", "a2.wav", "a3.wav"] embeddings = [] for af in audio_files: try: emb = extract_embedding(af) embeddings.append(emb) print(f"{af} 提取成功") except Exception as e: print(f"{af} 提取失败: {e}")

未来可通过修改后端支持多文件数组上传以提升效率。

6. 高级技巧：保存结果与阈值控制

6.1 自定义相似度阈值

默认情况下，CAM++ 使用 0.31 作为判定阈值。如果你希望动态调整，可以在界面上先设置好再发起 API 请求——因为 Gradio 会记住当前会话的状态。

更稳妥的方式是：在调用前通过 UI 操作固定阈值，并在系统配置中记录该值，避免因界面重置导致行为不一致。

长远来看，建议 fork 项目并改造其逻辑，使阈值可通过参数传入。

6.2 获取并解析输出文件

当你勾选“保存结果到 outputs 目录”时，系统会在outputs/下生成时间戳命名的子目录，包含：

result.json：验证结果
embeddings/*.npy：特征向量文件

你可以在 Python 中定期扫描该目录，读取最新结果：

import os import glob import json output_dir = "/root/speech_campplus_sv_zh-cn_16k/outputs" latest_folder = max(glob.glob(os.path.join(output_dir, 'outputs_*')), key=os.path.getctime) result_file = os.path.join(latest_folder, 'result.json') if os.path.exists(result_file): with open(result_file, 'r', encoding='utf-8') as f: result = json.load(f) print("上次验证结果:", result)

7. 常见问题与解决方案

7.1 请求返回 422 或 500 错误

原因：可能是音频格式不兼容或采样率不符合要求。
解决办法：统一转换为16kHz、单声道、WAV 格式。

使用pydub转换示例：

pip install pydub

from pydub import AudioSegment audio = AudioSegment.from_file("input.mp3") audio = audio.set_frame_rate(16000).set_channels(1) audio.export("output.wav", format="wav")

7.2 返回空数据或乱码

检查点：确认Content-Type是否被正确识别
建议做法：始终使用files参数上传音频，不要尝试 base64 编码嵌入 JSON

7.3 多人并发调用性能下降

Gradio 默认是单线程的，高并发下容易阻塞。生产环境中建议：

使用queue=True开启异步队列
或改造成 FastAPI + 模型推理服务分离架构

8. 总结：让 CAM++ 成为你系统的“声纹引擎”

通过本文的实践，你应该已经掌握了如何将 CAM++ 从一个“演示工具”升级为“可编程组件”。

回顾一下关键步骤：

确认服务运行在可访问的端口上
理解 Gradio 的/api/predict/调用机制
使用requests模拟文件上传完成验证与提取
处理返回结果并集成到业务逻辑中

这套方案特别适合中小型项目快速落地声纹识别能力，比如：

客服录音中自动匹配坐席身份
智能音箱中的用户唤醒区分
在线教育平台防代考声纹核验

当然也要清醒认识到局限性：Gradio 并非专为 API 设计，长期大规模使用建议将其模型部分剥离，封装成独立的 FastAPI 或 Flask 服务。

但至少现在，你已经有了一个低成本、见效快、能跑通全流程的起点。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

CAM++ Python调用教程：API集成到自有系统的步骤