利用“YOLO11 + Qwen3.5”构建视频内容审核系统,核心思路是采用“小模型感知 + 大模型认知”的双层架构。YOLO11负责高效提取视频中的结构化信息,Qwen3.5则基于这些信息进行复杂的语义理解和违规判定。
🏛️ 系统总体架构
一个完整的审核系统通常包含以下四个层级:
视频接入层
负责接入各类视频源,并进行初步处理。
接入源:支持RTSP/RTMP协议的摄像头、NVR,以及MP4/AVI等本地文件。
流媒体服务:使用SRS、ZLMediaKit等工具进行视频流的转发、分发和录制,确保多路并发下的稳定性。
感知层 (YOLO11)
这是系统的“眼睛”,负责从视频流中提取关键的结构化信息。
目标检测与追踪:利用YOLO11识别并持续追踪视频中的人、物体(如手机、刀具)、特定行为(如摔倒、奔跑)等。
关键信息提取:输出每个目标的边界框坐标、类别、置信度以及在视频中的时间戳,为上层分析提供数据基础。
认知与分析层 (Qwen3.5)
这是系统的“大脑”,负责深度理解和决策。
多模态理解:接收YOLO11的结构化数据与视频帧(图像),进行综合分析。
违规行为判定:基于预设的审核规则(如“禁止暴力”、“禁止裸露”),判断当前场景是否存在违规。
自然语言交互:支持通过自然语言查询视频内容,例如“找出所有出现打架行为的片段”。
业务与存储层
负责处理审核结果,并提供接口服务。
数据存储:原始视频存储于对象存储(如腾讯云COS),结构化审核记录存入数据库(如MySQL、InfluxDB),用于快速检索。
业务功能:提供告警推送、审核日志查询、人工复核界面等。
⚙️ 审核流程详解
以“检测暴力行为”为例,整个自动化审核流程如下:
视频解码与抽帧
将视频流解码,并按固定时间间隔(如每秒1-2帧)抽取关键帧,以平衡实时性与计算成本。
YOLO11感知分析
对每一帧图像运行YOLO11模型,识别出所有相关目标。
输入:视频帧图像。
输出:
[ { "frame_id": 1001, "timestamp": "00:00:10", "boxes": [ { "class": "person", "bbox": [x1,y1,x2,y2], "track_id": 1 }, { "class": "person", "bbox": [x3,y3,x4,y4], "track_id": 2 } ] } ]
信息聚合与上下文构建
将连续多帧的检测结果进行聚合,构建出包含时间跨度和目标运动轨迹的上下文信息,这对于判断连续动作(如“殴打”)至关重要。
Qwen3.5认知审核
将聚合后的信息(包括关键帧图像和目标信息)以及预设的审核指令,一并输入给Qwen3.5。
Prompt示例:
你是一个专业的视频内容审核员。请仔细分析以下视频片段:
视觉信息:[此处传入关键帧图像]
检测信息:检测到两名人员(ID: 1, 2)在画面中心区域有长时间、高频率的肢体接触和推搡动作。
审核规则:画面中出现明显的打架、斗殴等暴力行为视为违规。
任务:请判断该片段是否存在违规行为,并以JSON格式输出结论,包含是否违规(is_violation)、违规类型(violation_type)和置信度(confidence)。
结果处理与告警
审核结果:Qwen3.5输出结构化判定,如
{ "is_violation": true, "violation_type": "暴力行为", "confidence": 0.92 }。业务动作:系统根据结果自动执行相应操作,如标记违规片段、截取关键帧作为证据、发送告警通知给人工复核员等。
💡 优势与适用场景
这种架构的优势在于:
高效精准:YOLO11处理底层感知,速度快;Qwen3.5处理高层语义,判断准,二者结合实现了效率与效果的平衡。
场景灵活:通过修改输入给Qwen3.5的指令和规则,可以快速适配不同场景的审核需求。
典型应用场景包括:
短视频/直播平台:自动检测是否存在暴力、涉黄、危险动作等违规内容。
安防监控:识别监控画面中的打架、摔倒、入侵等异常事件。
工业安全:审核工厂监控,检查工人是否佩戴安全帽、有无违规操作。