news 2026/4/16 13:42:23

【ICLR26-鲁继文团队-清华大学】Astra:具有自回归去噪功能的通用交互式世界模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【ICLR26-鲁继文团队-清华大学】Astra:具有自回归去噪功能的通用交互式世界模型

文章:ASTRA: GENERAL INTERACTIVE WORLD MODEL WITH AUTOREGRESSIVE DENOISING

代码:https://github.com/EternalEvan/Astra

单位:清华大学、快手科技


一、问题背景

当下扩散Transformer技术让视频生成模型能产出高质量短片,但真正能落地的“世界模型”仍有明显短板:现有模型要么只能生成独立短片段,无法响应相机运动、机器人操作等实时动作输入;要么在长时预测中难以平衡时序连贯性与动作响应性,容易出现误差累积、视觉漂移;同时,面对相机控制、机器人姿态、键盘指令等异质动作模态,通用性不足,难以适配自动驾驶、机器人操作等复杂真实场景。构建兼具交互性、长时一致性与多场景适配能力的通用世界模型,成为行业亟待突破的核心需求。

二、方法创新

ASTRA以“自回归去噪”为核心框架,用三大关键设计破解行业痛点:

  1. 动作感知适配器(ACT-Adapter):在预训练视频扩散模型基础上,通过轻量线性层将动作信号直接注入 latent 空间,搭配“无动作引导(AFG)”机制,既保留高保真生成能力,又实现对动作指令的精准响应。

  2. 噪声增强历史记忆:采用“噪声掩码”策略,训练时对历史帧注入随机噪声,避免模型过度依赖过往视觉信息(即“视觉惯性”),巧妙平衡长时时序一致性与动作响应灵敏度。

  3. 动作专家混合体(MoAE):通过模态投影、动态路由与专家聚合,将相机姿态、机器人动作、键盘指令等异质动作统一编码,让模型灵活适配多场景交互需求。

三、实验结果

ASTRA在多数据集与自建Astra-Bench基准上表现亮眼:

  • 定量指标全面领先:在指令遵循度、主体/背景一致性、运动流畅度等6项核心指标上,显著超越Wan-2.1、MatrixGame、YUME等SOTA模型,旋转误差低至1.23、平移误差4.86,指令遵循度达0.669。

  • 长时预测稳定可靠:能生成8-10秒高连贯视频,避免了同类模型常见的长序列误差累积问题。

  • 跨场景泛化能力强:不仅在自动驾驶、机器人操作、相机控制等目标场景表现优异,还能适配室内环境、动漫风格、Minecraft游戏等未训练场景,动作响应精准度保持稳定。

四、优势与局限

核心优势
  1. 交互性突出:可实时响应多模态动作输入,生成结果与指令高度对齐,打破传统视频生成的“被动输出”局限。

  2. 通用性极强:通过MoAE统一异质动作模态,无缝适配探索、机器人、自动驾驶等多类场景。

  3. 参数高效:仅新增366.8M可训练参数,远少于同类模型,无需重训大模型即可实现功能升级。

现存局限

推理效率不足是主要短板:基于扩散生成与自回归迭代机制,每帧需多步去噪处理,难以满足实时交互场景(如在线控制、交互式机器人)的低延迟需求。

五、一句话总结

ASTRA通过自回归去噪框架+三大创新设计,打造出兼具高保真、强交互、长时一致的通用世界模型,为自动驾驶、机器人操作等真实场景的模拟与探索提供了高效解决方案,同时也为轻量化实时世界模型的研发指明了方向。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/23 2:21:46

解决vLLM安装卡在vllm-nccl-cu12依赖项的实战指南

1. 理解vLLM安装卡在nccl-cu12依赖项的问题 最近在安装vLLM时&#xff0c;很多开发者都遇到了一个棘手的问题&#xff1a;安装过程卡在vllm-nccl-cu12这个依赖项上。这个问题通常表现为安装进度停滞&#xff0c;或者出现类似"Collecting vllm-nccl-cu12<2.19,>2.18&…

作者头像 李华
网站建设 2026/3/20 22:15:02

智能客服自动化测试实战:从零构建高效测试流水线

智能客服自动化测试实战&#xff1a;从零构建高效测试流水线 传统智能客服测试依赖人工验证&#xff0c;存在效率低下、覆盖率不足等问题。本文基于PythonPytestAllure技术栈&#xff0c;设计了一套自动化测试解决方案&#xff0c;通过对话场景建模、意图识别验证和异常流处理…

作者头像 李华
网站建设 2026/4/9 19:33:31

深入剖析.NET Core内存泄漏:利用dotnet-counters与dotnet-dump实战指南

1. 为什么.NET Core应用会出现内存泄漏&#xff1f; 内存泄漏是.NET Core开发中常见的问题之一&#xff0c;尤其是在长时间运行的服务端应用中。简单来说&#xff0c;内存泄漏指的是应用中的对象在不再需要时没有被垃圾回收器(GC)正确释放&#xff0c;导致内存占用持续增长。这…

作者头像 李华
网站建设 2026/4/13 10:36:34

零成本打造专业级无线音频网络:AudioShare技术民主化实践指南

零成本打造专业级无线音频网络&#xff1a;AudioShare技术民主化实践指南 【免费下载链接】AudioShare 将Windows的音频在其他Android设备上实时播放。Share windows audio 项目地址: https://gitcode.com/gh_mirrors/audi/AudioShare 在数字化生活的今天&#xff0c;音…

作者头像 李华
网站建设 2026/4/16 12:06:05

ChatGLM3-6B 高效 Prompt Engineering 实战:从模型调优到生产部署

背景痛点&#xff1a;ChatGLM3-6B 在业务里“水土不服”的三道坎 把 ChatGLM3-6B 从 Hugging Face 拖到生产环境&#xff0c;就像把实验室里的盆栽直接种到戈壁&#xff1a;能活&#xff0c;但长得不好。过去三个月&#xff0c;我们团队踩过的坑集中在三点&#xff1a; 多轮对…

作者头像 李华
网站建设 2026/4/15 23:02:25

3个被刻意隐瞒的数据集缺陷:BCI Competition IV 2a深度实战指南

3个被刻意隐瞒的数据集缺陷&#xff1a;BCI Competition IV 2a深度实战指南 【免费下载链接】bcidatasetIV2a This is a repository for BCI Competition 2008 dataset IV 2a fixed and optimized for python and numpy. This dataset is related with motor imagery 项目地址…

作者头像 李华