AI在夜晚集体失明！90段视频+12类问题实测模型夜盲程度

EgoNight 团队投稿
量子位 | 公众号 QbitAI

人类在夜里走路，即便光线昏暗也能认出熟人、避开障碍。

但AI的第一人称视觉模型到了晚上基本等于“瞎了”。

昏暗光照、反光、噪声、运动模糊，再加上佩戴式设备的抖动和遮挡…让视觉理解这道题，夜间难度直接翻倍。

来自INSAIT、华东师范大学、港科大（广州）、南开大学、复旦大学等机构的研究者提出EgoNight基准，系统聚焦夜间第一人称视觉理解这一长期被忽视的问题，被ICLR 2026收录。

它把昼夜对齐视频、夜间问答评测、深度估计与跨光照检索放进同一套benchmark中，让研究者能够真正回答：

现有多模态模型到了夜里，究竟还剩下多少理解能力？

三点速读：

首个夜间第一人称视觉综合基准，核心任务为EgoNight-VQA。
用昼夜对齐视频提升标注质量，覆盖90段视频、3658组QA、12类问题。
现有主流多模态大模型从白天迁移到夜晚时普遍明显掉点，夜间感知与推理仍远未解决。

为什么“夜间第一人称视觉”如此重要？

过去几年，第一人称视觉在智能眼镜、可穿戴助手、具身智能和机器人学习等方向快速升温，但相关benchmark大多建立在白天场景之上。

这个设定看似自然，实际上却绕开了真实世界中最棘手的一部分：夜间并不是“把亮度调低”这么简单，而是会同时改变目标可见性、纹理细节、光源分布、动态范围与时序稳定性。

对第一人称视频来说，这些问题还会被手部遮挡、视角快速移动、交互距离近等因素进一步放大。

也正因为如此，很多在白天看起来表现不错的模型，到了夜里并不是“略差一些”，而是会在物体识别、文字读取、动作判断、空间定位等基础能力上同步退化。

EgoNight的价值，首先就在于它把这个长期被回避的问题，变成了一个可以被系统测量、被公平比较、也能被持续推动的研究对象。

EgoNight：把“昼夜对齐”做进第一人称基准

这篇工作的一个很强的观察是：夜间视频本身很难直接标。

不只是模型，连人类标注者在纯夜间片段上也常常难以稳定生成高质量问答。

为了解决这个问题，作者没有简单扩大采集量，而是引入“昼夜对齐视频”作为整个基准的设计核心——

在相同或高度对齐的场景、动作与时间线上，同时保留白天与夜晚版本，再利用白天参考去辅助夜间问答构建。

围绕这一思路，EgoNight包含三个数据子集：真实采集的EgoNight-Sofia、由Blender/Infinigen构建的EgoNight-Synthetic，以及来自Oxford Day-and-Night的夜间片段。

基于这些数据，作者构建了3658组QA，覆盖12种题型，并投入300多小时进行人工复核。

更重要的是，整套标注流程也被设计得非常清楚：先做夜间描述生成，再生成候选问题，随后引入白天参考进行答案增强，最后由人工逐条精修。

这样做的好处是，夜间标注不再完全依赖“猜暗处有什么”，而是被放回到更可靠的跨光照对照关系中。

任务设计：从“看见”到“理解”

EgoNight-VQA并没有把问题都堆成一个大杂烩，而是刻意区分了两类任务。

第一类是可以做昼夜直接对比的paired QA，例如物体识别、文字识别、动作识别等；这些任务能够直接告诉我们，同一个场景、同一类问题，在白天与夜晚之间会掉多少。

第二类是夜间特有或更适合夜间设问的unpaired QA，例如光照识别、光照动态、动态目标检测、非常识推理等，用来捕捉低光环境里才真正突出的难点。

此外，这个benchmark还不是只考“短问答”。

有些题目只需要几帧就能回答，有些则要求模型理解完整视频的时序信息。

除了VQA之外，论文还扩展了两项辅助任务：夜间第一人称深度估计，以及昼夜对应检索。

前者关注几何感知是否会在低光下失稳，后者关注模型能不能在亮度差异很大的情况下，仍把昼夜场景对应起来。

也就是说，EgoNight实际上在同时追问三个层面的问题：模型是否还能看清、还能对齐、还能推理。

实验发现：大模型在夜晚“集体失明”

项目主页公布的榜单很能说明问题：在EgoNight-VQA 上，GPT-4.1和Gemini 2.5 Pro的平均准确率分别为30.93%和30.60%，已经是当前表现最好的模型之一，但距离“可靠可用”仍有相当距离。

更关键的是，论文不是简单比较谁更高，而是把昼夜迁移这件事拆开看：几乎所有模型从白天转到夜晚都会显著掉点，而且感知驱动的任务通常比推理导向的任务跌得更厉害。

这意味着夜间理解的瓶颈，首先仍然卡在“视觉信号不够稳”上。

与此同时，作者新提出的几类题，例如光照识别、光照变化、非常识情况检测往往又比常规QA更难，这说明模型即使能勉强读出画面，也未必真正建立了对夜间场景的环境理解。

类似的退化还出现在辅助任务中：无论是深度估计还是昼夜对应检索，低光都会明显削弱几何与跨条件匹配能力。

如何改进？

为了进一步探清楚“问题出在哪里”，作者基于Qwen2.5-VL-7B做了系统微调实验。

结果显示全量微调带来最明显的整体提升，相比zero-shot基线有9.21%的绝对增益；

如果主要调视觉编码器，收益更集中在物体和文字等感知类任务；

而调语言模型部分，则能同时改善感知与推理，说明夜间理解不仅受视觉退化影响，也和模型如何调用语言先验密切相关。

另一个值得关注的发现是synthetic-to-real transfer的有效性：只用合成夜间数据训练，也能迁移到真实夜间场景。

这对于该方向非常重要，因为夜间高质量数据的采集与标注成本都很高，而合成数据如果能承担一部分适配任务，就意味着夜间视觉研究终于有了更可扩展的推进路径。

EgoNight的更多可视化结果、数据与 benchmark 入口及可交互demo，已经可以在项目主页中直接查看。

论文地址：https://arxiv.org/abs/2510.06218
项目主页：https://dehezhang2.github.io/EgoNight/
代码：https://github.com/dehezhang2/EgoNight
数据： https://huggingface.co/datasets/dehezhang2/EgoNight
项目demo：https://dehezhang2.github.io/EgoNight/benchmark.html