news 2026/5/9 0:22:15

【CVPR26-韩国科学技术院】令牌扭曲技术助力多模态大语言模型从邻近视角观察场景

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【CVPR26-韩国科学技术院】令牌扭曲技术助力多模态大语言模型从邻近视角观察场景

文章:Token Warping Helps MLLMs Look from Nearby Viewpoints

代码:https://token-warping-mllm.github.io/

单位:韩国科学技术院(KAIST)


一、问题背景

多模态大语言模型(MLLMs)虽在视觉推理任务中表现优异,却对视角变化极为敏感。 传统像素级扭曲方法极易受深度误差影响,引发几何畸变与语义信息丢失;即便融入3D感知特征、显式3D监督,模型也难以完成可靠的视角转换推理,无法像人类一样从邻近新视角理解场景结构。

二、方法创新

研究团队提出Token Warping(令牌扭曲)方法,以图像令牌为单元实现视角变换,核心创新如下:

  1. 变换单元升级:用ViT架构的图像令牌替代像素,令牌兼具细节与鲁棒性,可抵抗几何噪声;

  2. 优选反向扭曲:在目标视角构建密集规则网格,反向映射至源图检索令牌,避免正向扭曲的稀疏空洞问题;

  3. 两种令牌获取策略:最近邻获取(高效轻量)、自适应获取(精准匹配);

  1. 零微调适配:推理阶段直接使用,无需微调模型,不破坏原有能力。

三、实验结果

团队构建专用基准ViewBench,验证视角空间推理与目标视角物体描述能力:

  1. 反向令牌扭曲在所有任务设置下,超越像素扭曲、专用空间推理MLLMs、生成式视角合成等全部基线

  2. 在视角重叠最低(5%-15%)的困难场景中,精度提升超12个百分点;

  3. 基于预估深度/相机位姿、大视角偏移、物体遮挡等复杂条件下,性能依旧稳定优于像素级方法;

  4. 最近邻获取与自适应获取效果相近,前者更适合落地使用。

四、优势与局限

核心优势

  1. 鲁棒性强:抵御深度误差,无几何畸变,完整保留语义信息;

  2. 轻量高效:推理开销极小,即插即用,无需额外训练;

  3. 泛化性好:单张图像即可完成邻近视角的推理转换。

现存局限

  1. 仅支持邻近小范围视角变换,无法处理大幅跨视角场景;

  2. 依赖深度图与相对相机位姿,几何信息质量会影响最终效果;

  3. 物体完全遮挡时,推理精度会出现一定下降。

五、一句话总结

反向令牌扭曲以图像令牌为单元替代像素扭曲,让多模态大模型无需生成新图像,就能轻量、鲁棒地完成邻近视角的场景推理,全面优于传统方法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 19:16:07

GEO重构品牌公关:Infoseek如何破解AI时代的认知困境

2026年,科技圈发生了不少事。OpenAI的Sora模型在今年3月被全面关停,引发了关于AI视频真实性和内容版权的大讨论。同一时期,315晚会曝光了AI“投毒”产业链,不法分子利用GEO技术定向对AI大模型投喂虚假信息。紧接着,4月…

作者头像 李华
网站建设 2026/4/17 16:59:38

iTorrent iOS种子下载器:在iPhone上实现专业级下载体验的终极指南

iTorrent iOS种子下载器:在iPhone上实现专业级下载体验的终极指南 【免费下载链接】iTorrent Torrent client for iOS 16 项目地址: https://gitcode.com/gh_mirrors/it/iTorrent 你是否曾经在iPhone上寻找一款真正能用的种子下载工具?iTorrent正…

作者头像 李华
网站建设 2026/4/17 8:39:32

KirikiriTools:解锁视觉小说游戏资源的三大神技

KirikiriTools:解锁视觉小说游戏资源的三大神技 【免费下载链接】KirikiriTools Tools for the Kirikiri visual novel engine 项目地址: https://gitcode.com/gh_mirrors/ki/KirikiriTools KirikiriTools是一款专为Kirikiri视觉小说引擎设计的开源工具集&am…

作者头像 李华