一、深夜报警:新模型上线后指标全绿,业务方却说“检测变差了”
上周三凌晨两点,手机突然震个不停——不是bug告警,而是业务负责人的紧急电话:“你们新推的YOLOv7模型有问题啊!客服反馈说集装箱编号识别率明显下降,但你们仪表盘上的mAP明明涨了2个点!”
挂掉电话后盯着监控面板发呆:离线测试时mAP从82.3%提升到84.1%,线上A/B测试的实时统计也显示各项指标均优于基线模型。问题出在哪?直到打开用户会话抽样工具才发现真相:新模型对低光照条件下的集装箱侧边数字漏检严重,而这部分场景在测试集中占比不足5%。
这个坑让我彻底明白:离线指标只是入场券,真正的考验在线上。
二、YOLO模型A/B测试的核心挑战
场景漂移是头号杀手
训练集里的数据分布和线上真实流量永远存在差距。我们曾用COCO预训练的YOLOv5做工业缺陷检测,离线测试F1值高达0.89,上线后却发现对新型划痕几乎无响应——产线设备升级后,缺陷形态发生了微妙变化。
延迟与吞吐量的隐形代价
YOLOv8n比YOLOv5s精度高1.5%,但推理耗时多了8ms。当QPS达到500时,这8ms直接导致GPU负载飙升到90%,触发降级策略。更糟的是,吞吐量下降还会影响后续流水线的处理节奏。
指标选择的陷阱
业务方关心“每千张图的漏报数”,算法团队盯着mAP@0.5:0.95,运维团队则盯着P99延迟。某次我们优化了小目标检测的召回率,却因误报增多导致下游系统频繁误触发告警,反而增加了人工复核