news 2026/4/25 13:10:25

AI在夜晚集体失明!90段视频+12类问题实测模型夜盲程度|ICLR 2026

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI在夜晚集体失明!90段视频+12类问题实测模型夜盲程度|ICLR 2026
EgoNight 团队 投稿
量子位 | 公众号 QbitAI

人类在夜里走路,即便光线昏暗也能认出熟人、避开障碍。

但AI的第一人称视觉模型到了晚上基本等于“瞎了”。

昏暗光照、反光、噪声、运动模糊,再加上佩戴式设备的抖动和遮挡…让视觉理解这道题,夜间难度直接翻倍。

来自INSAIT、华东师范大学、港科大(广州)、南开大学、复旦大学等机构的研究者提出EgoNight基准,系统聚焦夜间第一人称视觉理解这一长期被忽视的问题,被ICLR 2026收录。

它把昼夜对齐视频、夜间问答评测、深度估计与跨光照检索放进同一套benchmark中,让研究者能够真正回答:

现有多模态模型到了夜里,究竟还剩下多少理解能力?

三点速读:

  • 首个夜间第一人称视觉综合基准,核心任务为EgoNight-VQA。

  • 用昼夜对齐视频提升标注质量,覆盖90段视频、3658组QA、12类问题。

  • 现有主流多模态大模型从白天迁移到夜晚时普遍明显掉点,夜间感知与推理仍远未解决。

为什么“夜间第一人称视觉”如此重要?

过去几年,第一人称视觉在智能眼镜、可穿戴助手、具身智能和机器人学习等方向快速升温,但相关benchmark大多建立在白天场景之上。

这个设定看似自然,实际上却绕开了真实世界中最棘手的一部分:夜间并不是“把亮度调低”这么简单,而是会同时改变目标可见性、纹理细节、光源分布、动态范围与时序稳定性。

对第一人称视频来说,这些问题还会被手部遮挡、视角快速移动、交互距离近等因素进一步放大。

也正因为如此,很多在白天看起来表现不错的模型,到了夜里并不是“略差一些”,而是会在物体识别、文字读取、动作判断、空间定位等基础能力上同步退化。

EgoNight的价值,首先就在于它把这个长期被回避的问题,变成了一个可以被系统测量、被公平比较、也能被持续推动的研究对象。

EgoNight:把“昼夜对齐”做进第一人称基准

这篇工作的一个很强的观察是:夜间视频本身很难直接标。

不只是模型,连人类标注者在纯夜间片段上也常常难以稳定生成高质量问答。

为了解决这个问题,作者没有简单扩大采集量,而是引入“昼夜对齐视频”作为整个基准的设计核心——

在相同或高度对齐的场景、动作与时间线上,同时保留白天与夜晚版本,再利用白天参考去辅助夜间问答构建。

围绕这一思路,EgoNight包含三个数据子集:真实采集的EgoNight-Sofia、由Blender/Infinigen构建的EgoNight-Synthetic,以及来自Oxford Day-and-Night的夜间片段。

基于这些数据,作者构建了3658组QA,覆盖12种题型,并投入300多小时进行人工复核。

更重要的是,整套标注流程也被设计得非常清楚:先做夜间描述生成,再生成候选问题,随后引入白天参考进行答案增强,最后由人工逐条精修。

这样做的好处是,夜间标注不再完全依赖“猜暗处有什么”,而是被放回到更可靠的跨光照对照关系中。

任务设计:从“看见”到“理解”

EgoNight-VQA并没有把问题都堆成一个大杂烩,而是刻意区分了两类任务。

第一类是可以做昼夜直接对比的paired QA,例如物体识别、文字识别、动作识别等;这些任务能够直接告诉我们,同一个场景、同一类问题,在白天与夜晚之间会掉多少。

第二类是夜间特有或更适合夜间设问的unpaired QA,例如光照识别、光照动态、动态目标检测、非常识推理等,用来捕捉低光环境里才真正突出的难点。

此外,这个benchmark还不是只考“短问答”。

有些题目只需要几帧就能回答,有些则要求模型理解完整视频的时序信息。

除了VQA之外,论文还扩展了两项辅助任务:夜间第一人称深度估计,以及昼夜对应检索。

前者关注几何感知是否会在低光下失稳,后者关注模型能不能在亮度差异很大的情况下,仍把昼夜场景对应起来。

也就是说,EgoNight实际上在同时追问三个层面的问题:模型是否还能看清、还能对齐、还能推理。

实验发现:大模型在夜晚“集体失明”

项目主页公布的榜单很能说明问题:在EgoNight-VQA 上,GPT-4.1和Gemini 2.5 Pro的平均准确率分别为30.93%和30.60%,已经是当前表现最好的模型之一,但距离“可靠可用”仍有相当距离。

更关键的是,论文不是简单比较谁更高,而是把昼夜迁移这件事拆开看:几乎所有模型从白天转到夜晚都会显著掉点,而且感知驱动的任务通常比推理导向的任务跌得更厉害。

这意味着夜间理解的瓶颈,首先仍然卡在“视觉信号不够稳”上。

与此同时,作者新提出的几类题,例如光照识别、光照变化、非常识情况检测往往又比常规QA更难,这说明模型即使能勉强读出画面,也未必真正建立了对夜间场景的环境理解。

类似的退化还出现在辅助任务中:无论是深度估计还是昼夜对应检索,低光都会明显削弱几何与跨条件匹配能力。

如何改进?

为了进一步探清楚“问题出在哪里”,作者基于Qwen2.5-VL-7B做了系统微调实验。

结果显示全量微调带来最明显的整体提升,相比zero-shot基线有9.21%的绝对增益;

如果主要调视觉编码器,收益更集中在物体和文字等感知类任务;

而调语言模型部分,则能同时改善感知与推理,说明夜间理解不仅受视觉退化影响,也和模型如何调用语言先验密切相关。

另一个值得关注的发现是synthetic-to-real transfer的有效性:只用合成夜间数据训练,也能迁移到真实夜间场景。

这对于该方向非常重要,因为夜间高质量数据的采集与标注成本都很高,而合成数据如果能承担一部分适配任务,就意味着夜间视觉研究终于有了更可扩展的推进路径。

EgoNight的更多可视化结果、数据与 benchmark 入口及可交互demo,已经可以在项目主页中直接查看。

论文地址:https://arxiv.org/abs/2510.06218
项目主页:https://dehezhang2.github.io/EgoNight/
代码:https://github.com/dehezhang2/EgoNight
数据: https://huggingface.co/datasets/dehezhang2/EgoNight
项目demo:https://dehezhang2.github.io/EgoNight/benchmark.html

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 13:09:22

SAP-MM-BASIS-采购审批权限的精细化管控与实战分配

1. SAP MM采购审批权限的核心逻辑 采购审批权限管控是SAP MM模块实施中最容易踩坑的环节之一。我见过不少企业上线后才发现审批流程形同虚设——本该由总监审批的高价采购单,居然被普通采购员轻松通过。这种漏洞往往源于对权限配置逻辑的理解偏差。 SAP的审批权限体…

作者头像 李华
网站建设 2026/4/25 13:05:51

小说写作神器novelWriter:5个核心功能让你告别写作混乱

小说写作神器novelWriter:5个核心功能让你告别写作混乱 【免费下载链接】novelWriter novelWriter is an open source plain text editor designed for writing novels. 项目地址: https://gitcode.com/gh_mirrors/no/novelWriter 你是否曾经在写作时被复杂的…

作者头像 李华