news 2026/4/21 9:35:38

拿下Oral!CVPR 2026 SEATrack:高效的多模态跟踪器

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
拿下Oral!CVPR 2026 SEATrack:高效的多模态跟踪器

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

当很多统一多模态跟踪方法还在靠“加模块、堆参数”换性能时,SEATrack换了一个思路:问题也许不只在“怎么融合”,更在“融合之前,两种模态的匹配响应到底有没有对齐”。

SEATrack是一个简单高效的双流多模态跟踪器,它用“对齐先于融合”的设计,在RGB-T、RGB-D和RGB-E五个基准上取得了很强的综合表现,同时把可学习参数控制在0.6M,推理速度做到63.5 FPS


一句话概括

SEATrack的核心不是把跨模态融合做得更重,而是先解决一个长期被忽视的问题:不同模态之间的目标匹配响应并不一致。围绕这一点,它提出AMG-LoRA做跨模态注意力对齐,再用HMoE做高效全局融合,从而在性能和效率之间找到更优平衡。


背景:多模态跟踪到底难在哪?

仅依赖RGB的目标跟踪在多数场景下已经能够取得较好效果,但在光照突变、快速运动、遮挡等复杂条件下,单一模态的感知能力仍然容易受限。为此,热红外、深度、事件等异构模态被引入,以提供与RGB互补的目标信息。近年来,基于参数高效微调(PEFT)的统一多模态跟踪方法逐渐成为研究热点,因为它试图在继承预训练RGB跟踪器能力的同时,以较低代价适配多模态场景。

不过,这条路线也暴露出两个越来越明显的问题。其一,部分SOTA方法为了追求多任务性能提升,不断增加可训练参数量和计算开销,逐步偏离PEFT原本强调的资源友好与效率优势。其二,现有研究大多将重点放在跨模态信息融合上,希望通过更复杂的交互机制提升表征能力,但在实际效果上,这类思路仍然面临表达能力与计算效率之间的权衡:基于注意力的全局交互虽然表达充分,却往往代价较高;而轻量级局部融合虽然更加高效,却缺乏足够的全局建模能力。


核心洞察:问题不只在“怎么融合”,更在“匹配是否一致”

SEATrack的关键见解在于,多模态跟踪首先是一个目标匹配问题,然后才是一个跨模态融合问题。可以把目标跟踪理解为:拿着一张目标照片,在当前场景中持续搜索同一个对象。在这个过程中,模板与搜索区域之间的正确匹配始终是跟踪的核心步骤。在现代多模态跟踪模型中,这一匹配通常通过ViT的自注意力层实现。

作者通过可视化结果指出,现有多模态方法真正被低估的问题,恰恰出现在这一步。对于单流方法,异构模态在早期就被混合输入,容易导致匹配过程中的注意力漂移;对于双流方法,虽然保留了模态独立性,但由于模态域偏差以及不同场景下模态可靠性的动态变化,两条分支往往会产生彼此不一致的注意力图。注意到多模态输入具有良好的时空一致性,如果不同模态对“目标到底在哪”这件事本身就没有达成一致,那么这种空间上的感知冲突会进一步干扰后续的跨模态融合。

图1. SEATrack与现有单流/双流多模态跟踪框架对比。

基于这一观察,作者提出了AMG-LoRA。它一方面引入LoRA帮助注意力层中的预训练知识适应多模态域,另一方面通过简单有效的自适应互引导机制,让一种模态的匹配信息去动态引导另一种模态,不是简单求平均,也不是强行拉齐,而是根据场景中不同模态的可靠性,自适应地做双向修正。


第二个亮点:用MoE做全局融合,但不再付出Attention那样的高代价

在跨模态融合阶段,SEATrack没有继续沿用计算代价较高的Attention式方案,而是提出了HMoE作为高效的全局关系建模器。其通过层次化软路由的方式完成跨模态全局交互:它先在sub-token层面完成细粒度混合,再在token层面完成聚合输出。也正因如此,HMoE更像是一种面向跨模态融合的高效token mixer,而不是传统意义上的MoE替代品。

图2. HMoE的层次化融合结构示意。

HMoE的两阶段融合过程,其计算复杂度主导项为。由于每个专家的头数量远小于序列长,其计算效率优于复杂度为的Attention。实验表明,HMoE相较于Attention式融合,在性能非常接近的情况下,FPS提升约35%。

图3. SEATrack与现有全局/局部融合策略的性能-效率对比。

更进一步,作者还验证了层次化融合设计的必要性。可以看到,当引入层次化融合后(),多任务性能都得到提升。

图4. 不同专家头配置下的性能对比。


实验结果:不靠大参数,也能把结果做上去

从主表结果看,SEATrack在五个基准上都拿出了很有说服力的综合表现:

  • LasHeR:71.6 PR、67.5 NPR、57.3 SR

  • RGBT234:87.8 MPR 、63.9 SR

  • DepthTrack:62.9 PR、63.5 RE、63.2 F-score

  • VOT-RGBD2022:73.6 EAO、82.1 Accuracy、88.4 Robustness

  • VisEvent:77.1 PR、60.3 SR

更重要的是,这些结果建立在仅0.6M可学习参数和63.5 FPS的前提下。

图5. SEATrack在多个多模态跟踪基准上的综合性能表现。


更让人眼前一亮的是,它揭示了“对齐”的价值

消融实验非常说明问题。仅加入AMG-LoRA,在只增加0.14M参数的情况下,就能相对基线带来LasHeR 上18.3%的PR提升、DepthTrack上7.2%的PR提升,以及 VisEvent 上6.1%的PR提升。值得注意的是,在HMoE的基础上引入AMG-LoRA同样取得了显著的多任务性能提升,这进一步验证了对齐之于融合的重要性

图6. AMG-LoRA与HMoE的消融实验结果。

进一步看挑战属性下的性能对比,AMG-LoRA在相似目标、背景干扰、快速运动等复杂场景下都有稳定增益,甚至在帧缺失这类看似违背设计假设的场景中,也依然优于普通LoRA。

图7. AMG-LoRA与LoRA在不同挑战属性下的性能对比。

可视化结果显示,经过对齐后的注意力图更加干净、稳定,预测也更不容易被相似外观目标带偏,呈现出一种很强的“去噪”能力。

图8. AGM-LoRA(右)与LoRA(左)在RGB分支帧丢失场景下的可视化对比。

图9. AMG-LoRA呈现出的自适应对齐行为。


研究价值:多模态跟踪,也许不该再只卷“融合”了

SEATrack传递出的一个重要信号是:在多模态跟踪中,跨模态对齐可能是一个长期被低估的关键环节。过去,许多方法将主要精力放在“如何设计更强的融合模块”上;而SEATrack表明,若不同模态在目标匹配阶段尚未形成一致响应,后续融合的收益也会受到限制。相比继续堆叠更重的交互结构,先提升跨模态空间感知的一致性,再在此基础上进行高效融合,或许才是打破性能-效率难题的更优路径。进一步看,“先对齐感知、后信息融合”的思路,也为其他视觉多模态感知任务提供了一个值得关注的视角。


链接

  • arXiv:https://arxiv.org/abs/2604.12502

  • 代码:https://github.com/AutoLab-SAI-SJTU/SEATrack

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载566页课件PPT!大家赶紧学起来!

CVPR 2026 所有论文和代码下载

在CVer公众号后台回复:CVPR2026,即可下载CVPR 2026 所有论文和代码!

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/21 9:33:26

GaN图腾柱无桥PFC进阶:用重复控制搞定400Hz航空电网的谐波抑制

GaN图腾柱无桥PFC在400Hz航空电网中的谐波抑制实战 当飞机引擎的轰鸣声划过天际,很少有人会注意到支撑这庞然大物稳定飞行的400Hz交流电网系统。与地面常见的50/60Hz电网不同,航空电网的特殊频率给电源设计带来了全新挑战。作为一名曾在航空电源领域摸爬…

作者头像 李华
网站建设 2026/4/21 9:29:30

经济研究LaTeX模板终极指南:从零基础到专业排版只需30分钟

经济研究LaTeX模板终极指南:从零基础到专业排版只需30分钟 【免费下载链接】Chinese-ERJ 《经济研究》杂志 LaTeX 论文模板 - LaTeX Template for Economic Research Journal 项目地址: https://gitcode.com/gh_mirrors/ch/Chinese-ERJ 还在为《经济研究》投…

作者头像 李华
网站建设 2026/4/21 9:28:56

5分钟掌握:华为设备Bootloader终极解锁指南

5分钟掌握:华为设备Bootloader终极解锁指南 【免费下载链接】PotatoNV Unlock bootloader of Huawei devices on Kirin 960/95x/65x/620 项目地址: https://gitcode.com/gh_mirrors/po/PotatoNV 想要为你的华为或荣耀手机解锁Bootloader,获得完全…

作者头像 李华
网站建设 2026/4/21 9:26:23

nli-MiniLM2-L6-H768部署教程:GPU驱动版本兼容性检查与CUDA Toolkit验证

nli-MiniLM2-L6-H768部署教程:GPU驱动版本兼容性检查与CUDA Toolkit验证 1. 模型简介 nli-MiniLM2-L6-H768 是一个轻量级自然语言推理(NLI)模型,专门用于文本对关系判断、零样本文本分类和候选结果重排序任务。与生成式模型不同,它的核心能…

作者头像 李华