news 2026/6/10 16:18:07

从视频生成视角出发:英伟达 ChronoEdit 革新图像编辑领域,性能一致性 SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从视频生成视角出发:英伟达 ChronoEdit 革新图像编辑领域,性能一致性 SOTA

ChronoEdit 基于视频模型,可以通过对时间推理标记进行降噪来可视化其“推理”编辑过程,从而揭示最终输出背后的编辑轨迹。

大型生成模型在图像编辑和上下文图像生成上进步显著,但在确保物理一致性上有关键差距。论文提出 ChronoEdit 框架,把图像编辑重新定义为视频生成问题,利用大型预训练视频生成模型捕捉对象运动和交互的隐式物理特性,还引入时间推理阶段,通过目标帧与推理标记联合去噪构建合理编辑轨迹,限制解空间在物理可行变换范围,推理标记经几步后丢弃以降低成本。此外,引入新基准测试 PBenchEdit,验证了 ChronoEdit 在视觉保真度和物理合理性上超越先进基线方法。

时间推理可视化

ChronoEdit 基于视频模型,可以通过对时间推理标记进行降噪来可视化其“推理”编辑过程,从而揭示最终输出背后的编辑轨迹。

在参考图像和编辑图像的潜在变量之间引入了时间推理标记,作为中间指导,帮助模型“思考”可能的编辑轨迹。在推理阶段,为了提高效率,这些标记无需完全去噪;

物理人工智能相关任务

ChronoEdit 生成的编辑能够忠实地遵循物理一致性,这对于物理 AI 相关场景(例如自动驾驶车辆或人形机器人)尤其重要。

相关链接

  • 论文标题: ChronoEdit:面向图像编辑和世界模拟的时间推理
  • 论文: https://arxiv.org/pdf/2510.04290
  • 主页: https://research.nvidia.com/labs/toronto-ai/chronoedit
  • 体验:https://huggingface.co/spaces/nvidia/ChronoEdit
介绍

大型生成模型的最新进展极大地增强了图像编辑和上下文图像生成能力,但在确保物理一致性方面仍然存在关键差距,即编辑后的对象必须保持连贯性。这种能力对于世界模拟相关任务尤为重要。

论文提出了 ChronoEdit 框架将图像编辑重新定义为视频生成问题。 首先,ChronoEdit 将输入图像和编辑后的图像视为视频的首帧和末帧,从而能够利用大型预训练视频生成模型,这些模型不仅能够捕捉对象的外观,还能通过学习到的时间一致性来捕捉运动和交互的隐式物理特性。其次,ChronoEdit 引入了一个时间推理阶段,该阶段在推理阶段显式地执行编辑操作。在此设置下,目标帧与推理标记联合去噪,以构建一个合理的编辑轨迹,将解空间限制在物理上可行的变换范围内。

推理标记在经过几个步骤后被丢弃,以避免渲染完整视频带来的高昂计算成本。为了验证 ChronoEdit 的性能,引入了 PBenchEdit,这是一个针对需要物理一致性的上下文的图像-提示对的新基准测试,并证明 ChronoEdit 在视觉保真度和物理合理性方面均超越了最先进的基线方法。

方法概述

ChronoEdit流程概述。从右至左,去噪过程始于时间推理阶段,在此阶段,模型会想象并去噪一系列中间帧的短轨迹。这些中间帧充当推理标记,指导编辑以物理上一致的方式展开。为了提高效率,推理标记会在后续的编辑帧生成阶段被丢弃,在该阶段,目标帧会被进一步细化为最终的编辑图像。

实验结果

与基线方法的比较。前两行展示了 ImageEditBasic-Edit Suite(Ye 等人,2025)基准测试的示例,最后一行来自 PBench-Edit,其中 ChronoEdit-Think使用 10 个时间推理步骤进行评估。在两个基准测试中,ChronoEdit 都实现了更忠实地遵循给定指令的编辑,同时保留了场景结构和细节。

关于物理人工智能世界模拟相关任务的定性结果。所有结果均由 ChronoEdit-14B-Think 生成。每组结果均包含一张参考图像(左)和相应的输出图像(右)。ChronoEdit 生成的编辑结果能够精确地遵循给定的指令,同时保留物理人工智能相关场景的场景结构和精细细节。

结论

ChronoEdit 是一个用于图像编辑的基础模型,旨在确保物理一致性。通过重新利用预训练的视频扩散模型并引入时间推理阶段,该方法在保持输入和编辑输出之间一致性的同时,生成合理的变换。大量实验表明,ChronoEdit 在开源模型中达到了最先进的性能。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 10:33:38

面试官:说一下Nacos、OpenFeign、Ribbon、loadbalancer组件协调工作原理

前几天有个大兄弟问了我一个问题,注册中心要集成SpringCloud,想实现SpringCloud的负载均衡,需要实现哪些接口和规范。 既然这个兄弟问到我了,而我又刚好知道,这不得好好写一篇文章来回答这个问题,虽然在后面…

作者头像 李华
网站建设 2026/6/10 11:55:17

【课程设计/毕业设计】基于SSM二手物品交易网站系统商品发布、订单处理与分类检索【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/10 11:52:16

SSM毕设选题推荐:基于ssm框架开发的二手物品交易平台网站系统基于SSM二手物品交易网站系统【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/10 11:56:54

SSM计算机毕设之基于SSM的酒店前台接待、客房管理、餐饮服务一线式酒店管理系统(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华