Retinaface+CurricularFace与Vue.js前端集成实战-编程阁

Retinaface+CurricularFace与Vue.js前端集成实战

最近在做一个智能门禁系统的项目，需要在前端页面上实现实时的人脸识别功能。后端用的是性能不错的Retinaface+CurricularFace组合模型，但怎么把这个能力平滑地搬到Vue.js前端，让用户能在浏览器里直接看到摄像头画面和识别结果，这中间有不少坑要踩。

今天我就来分享一下这个集成过程的实战经验，重点聊聊Web API怎么设计、视频流怎么实时处理、识别结果怎么动态展示这些关键环节。如果你也在做类似的前后端结合项目，希望这些经验能帮你少走弯路。

1. 整体架构与思路

要把一个深度学习模型的能力搬到Web前端，直接让浏览器跑模型是不现实的，尤其是Retinaface这种需要GPU加速的检测模型。所以，我们得采用前后端分离的架构。

简单来说，就是前端负责“看”和“展示”，后端负责“算”。Vue.js构建的页面通过摄像头获取视频流，然后定时截取视频帧，把这些图像数据发送给后端的API服务。后端服务加载好Retinaface（负责检测人脸框和关键点）和CurricularFace（负责提取人脸特征并比对）模型，对收到的图片进行处理，最后把识别结果（比如是谁、置信度多少、人脸框位置）返回给前端。前端再根据这些结果，实时地在视频画面上绘制出框和标签。

这个过程中，有几个关键点需要特别注意：网络传输的效率和延迟、视频帧处理的性能、前后端数据格式的约定，以及用户交互的流畅性。下面我们就一个个环节拆开来看。

2. 后端API服务搭建

首先，我们需要一个强壮的后端服务来承载模型。这里不涉及具体的部署平台，你可以选择自己熟悉的任何方式，比如用Flask、FastAPI快速搭建一个Web服务。

核心是模型推理部分。你需要加载两个模型：

Retinaface模型：用于检测图片中的人脸，并输出人脸边框（Bounding Box）和5个关键点（双眼、鼻尖、嘴角）。
CurricularFace模型：这是一个用于人脸识别的模型，它接收一个对齐后的人脸图片（通常是112x112大小），输出一个512维的特征向量。我们通过计算这个特征向量与已知人脸库中向量的相似度（比如余弦相似度）来判断身份。

下面是一个简化版的核心处理函数，展示了这个流程：

# 伪代码，展示核心逻辑 import cv2 import numpy as np # 假设使用insightface库，它封装了Retinaface和CurricularFace import insightface class FaceRecognitionService: def __init__(self): # 初始化模型，这里app包含了检测器和识别器 self.app = insightface.app.FaceAnalysis() self.app.prepare(ctx_id=0, det_size=(640, 640)) # ctx_id=-1 表示用CPU，0表示GPU # 加载已知的人脸特征库 {‘name’: feature_vector} self.known_faces_db = self.load_known_faces() def process_image(self, image_data): """ 处理前端传来的一帧图片 :param image_data: base64编码的图片字符串或字节流 :return: 识别结果列表 """ # 1. 解码图片 img = self.decode_image(image_data) # 2. 使用Retinaface进行人脸检测和对齐 faces = self.app.get(img) results = [] for face in faces: # 获取人脸框坐标 (x1, y1, x2, y2) bbox = face.bbox.astype(int).tolist() # 获取5个关键点 landmarks = face.kps.astype(int).tolist() # 3. 使用CurricularFace提取人脸特征 embedding = face.normed_embedding # 4. 与库中特征比对，找出最相似的人 identity, confidence = self.compare_with_known_faces(embedding) # 5. 组装返回结果 result = { "bbox": bbox, # 人脸框位置 "landmarks": landmarks, # 关键点 "identity": identity, # 识别出的身份，未知则为“Unknown” "confidence": float(confidence) # 置信度 } results.append(result) return results def compare_with_known_faces(self, embedding): """ 将当前人脸特征与已知人脸库比对 """ best_match = "Unknown" best_score = 0.0 threshold = 0.6 # 相似度阈值，可根据实际情况调整 for name, known_embedding in self.known_faces_db.items(): # 计算余弦相似度 score = np.dot(embedding, known_embedding) / (np.linalg.norm(embedding) * np.linalg.norm(known_embedding)) if score > best_score and score > threshold: best_score = score best_match = name return best_match, best_score

你的后端API需要提供一个HTTP端点（比如/api/face-recognize），接收POST请求，请求体里包含图片数据，然后返回上面这种格式的JSON结果。

3. Vue.js前端开发要点

前端是我们的主战场，目标是在浏览器里创建一个流畅的实时识别界面。我们会用到vue-webcam或navigator.mediaDevices来获取摄像头流，用axios来调用后端API，用Canvas来绘制识别结果。

3.1 项目初始化与摄像头接入

首先，创建一个Vue 3项目，并安装必要的依赖。

npm create vue@latest my-face-app cd my-face-app npm install axios

然后，我们创建一个主要的识别组件FaceRecognition.vue。这里我们使用浏览器原生的API来获取摄像头流，这样控制更灵活。

<template> <div class="face-recognition"> <h2>实时人脸识别</h2> <div class="video-container"> <!-- 用于显示视频 --> <video ref="videoRef" autoplay playsinline class="video-element"></video> <!-- 用于绘制人脸框和标签的Canvas，覆盖在Video上方 --> <canvas ref="canvasRef" class="overlay-canvas"></canvas> </div> <div class="controls"> <button @click="startCamera">开启摄像头</button> <button @click="stopCamera" :disabled="!isStreaming">停止</button> <label> <input type="checkbox" v-model="isRecognizing" /> 开启实时识别 </label> <div>状态: {{ status }}</div> </div> </div> </template> <script setup> import { ref, onUnmounted } from 'vue' import axios from 'axios' const videoRef = ref(null) const canvasRef = ref(null) const isStreaming = ref(false) const isRecognizing = ref(false) const status = ref('准备中') const mediaStream = ref(null) const animationFrameId = ref(null) // 后端API地址 const API_URL = 'http://your-backend-server:port/api/face-recognize' const startCamera = async () => { try { status.value = '正在请求摄像头权限...' // 获取用户摄像头媒体流 const stream = await navigator.mediaDevices.getUserMedia({ video: { width: 640, height: 480, facingMode: 'user' } }) mediaStream.value = stream const video = videoRef.value video.srcObject = stream await video.play() // 调整Canvas尺寸与视频一致 const canvas = canvasRef.value canvas.width = video.videoWidth canvas.height = video.videoHeight isStreaming.value = true status.value = '摄像头已开启' // 如果自动识别开关已开，则开始识别循环 if (isRecognizing.value) { startRecognitionLoop() } } catch (err) { console.error('无法访问摄像头:', err) status.value = '摄像头访问失败: ' + err.message } } </script> <style scoped> .video-container { position: relative; width: 640px; height: 480px; margin: 20px auto; } .video-element, .overlay-canvas { position: absolute; top: 0; left: 0; width: 100%; height: 100%; } .video-element { background-color: #000; } .overlay-canvas { /* 确保Canvas不会拦截鼠标事件到视频上 */ pointer-events: none; } .controls { margin-top: 20px; text-align: center; } button { margin: 0 10px; padding: 10px 20px; } </style>

3.2 视频帧捕获与API调用

摄像头开启后，我们需要定时截取视频帧，发送给后端。这里的关键是平衡识别频率和性能，通常不需要每一帧都识别，可以设置一个间隔（比如每秒5-10次）。

我们在上面的组件中继续添加方法：

<script setup> // ... 接上面的代码 const captureFrame = () => { const video = videoRef.value const canvas = document.createElement('canvas') const ctx = canvas.getContext('2d') // 创建一个临时Canvas来捕获当前视频帧 canvas.width = video.videoWidth canvas.height = video.videoHeight ctx.drawImage(video, 0, 0, canvas.width, canvas.height) // 将Canvas转换为Blob或Base64 return new Promise((resolve) => { canvas.toBlob((blob) => { resolve(blob) }, 'image/jpeg', 0.8) // 使用JPEG格式并压缩，减少传输数据量 }) } const sendFrameToAPI = async (imageBlob) => { const formData = new FormData() formData.append('image', imageBlob, 'frame.jpg') try { const response = await axios.post(API_URL, formData, { headers: { 'Content-Type': 'multipart/form-data' }, timeout: 5000 // 设置超时，避免请求卡死 }) return response.data // 假设后端返回 { results: [...] } } catch (error) { console.error('API调用失败:', error) status.value = '识别服务请求出错' return null } } const recognitionLoop = async () => { if (!isStreaming.value || !isRecognizing.value) { return } // 1. 捕获当前帧 const imageBlob = await captureFrame() // 2. 发送到后端API const apiResult = await sendFrameToAPI(imageBlob) if (apiResult && apiResult.results) { // 3. 在Canvas上绘制结果 drawResultsOnCanvas(apiResult.results) } // 4. 循环调用自身，控制频率（例如每200ms一次） animationFrameId.value = setTimeout(recognitionLoop, 200) } const startRecognitionLoop = () => { if (isStreaming.value && isRecognizing.value) { recognitionLoop() } } // 当“开启实时识别”复选框变化时 watch(isRecognizing, (newVal) => { if (newVal && isStreaming.value) { startRecognitionLoop() } else { if (animationFrameId.value) { clearTimeout(animationFrameId.value) animationFrameId.value = null } // 停止识别时清空Canvas clearCanvas() } }) </script>

3.3 识别结果可视化

收到后端返回的人脸框、关键点和身份信息后，我们需要把它们画到覆盖在视频上方的Canvas上。

<script setup> // ... 接上面的代码 const drawResultsOnCanvas = (faces) => { const canvas = canvasRef.value const ctx = canvas.getContext('2d') const video = videoRef.value // 先清空上一帧的画布 ctx.clearRect(0, 0, canvas.width, canvas.height) faces.forEach(face => { const [x1, y1, x2, y2] = face.bbox const identity = face.identity const confidence = face.confidence // 1. 绘制人脸框 ctx.strokeStyle = identity === 'Unknown' ? '#ff4444' : '#44ff44' // 未知用红色，已知用绿色 ctx.lineWidth = 2 ctx.strokeRect(x1, y1, x2 - x1, y2 - y1) // 2. 绘制关键点（5个点） ctx.fillStyle = '#ffaa00' face.landmarks.forEach(point => { const [px, py] = point ctx.beginPath() ctx.arc(px, py, 3, 0, Math.PI * 2) ctx.fill() }) // 3. 绘制身份标签 const label = `${identity} (${(confidence * 100).toFixed(1)}%)` ctx.font = '16px Arial' const textWidth = ctx.measureText(label).width ctx.fillStyle = 'rgba(0, 0, 0, 0.7)' // 画一个背景矩形 ctx.fillRect(x1, y1 - 25, textWidth + 10, 25) // 画文字 ctx.fillStyle = '#ffffff' ctx.fillText(label, x1 + 5, y1 - 7) }) } const clearCanvas = () => { const canvas = canvasRef.value const ctx = canvas.getContext('2d') ctx.clearRect(0, 0, canvas.width, canvas.height) } const stopCamera = () => { if (mediaStream.value) { mediaStream.value.getTracks().forEach(track => track.stop()) mediaStream.value = null } isStreaming.value = false isRecognizing.value = false if (animationFrameId.value) { clearTimeout(animationFrameId.value) } clearCanvas() status.value = '已停止' } // 组件卸载时清理资源 onUnmounted(() => { stopCamera() }) </script>