news 2026/4/16 15:13:40

斯坦福大学李飞飞教授团队最新成果,针对具身差异,从零成本视频生成用于交互的3D物体流

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
斯坦福大学李飞飞教授团队最新成果,针对具身差异,从零成本视频生成用于交互的3D物体流

Dream2Flow,

简单来说,生成式视频模型能根据文字指令 + 初始图像,

“想象” 出人类完成任务的视频(像把面包放进碗),

但机器人看不懂这些人类动作,

没法把视频里的人类操作转化为自己的机械臂 / 关节运动指令,

毕竟机器人不知道怎么动机械臂才能复刻视频里的动作。

Dream2Flow解决的就是,构建视频想象和机器人执行的桥梁,让机器人不用专门训练(零样本),

就能跟着视频模型的 “想象”,

完成对各种物体(硬的、能动的、软的、颗粒状的)的操控,不用依赖特定任务的演示数据。

arxiv 2512.24766

Dream2Flow 利用现成的视频生成模型,在机器人所处的同一场景中生成任务执行过程的视频。

随后,该框架从视频的运动信息中提取 3D 物体流,支持机器人在多种任务中进行下游规划与执行。

示例任务:打开烤面包机、拉开抽屉、将面包放入碗中、将马克杯放入绿色碗中、将 T 型块推至中心、拉出椅子、回收易拉罐、清扫意大利面、打开烤箱、用围巾盖住碗、将面包放入碗中。

摘要:

生成式视频建模已成为一种极具潜力的工具,能够针对开放场景操控任务,对合理的物理交互过程进行零样本推理。然而,如何将这类由人类主导的动作转化为机器人系统所需的底层动作指令,至今仍是一项难题。研究发现,当输入初始图像与任务指令时,这类模型能够出色地合成合理的物体运动轨迹。基于此,我们提出了 Dream2Flow 框架,该框架以3D 物体流

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 13:04:29

钉钉机器人结合HunyuanOCR?实现图片消息智能解析

钉钉机器人结合HunyuanOCR:实现图片消息智能解析 在现代企业办公中,一张截图往往胜过千言万语——会议白板、报销发票、合同条款、产品说明书……越来越多的信息以图片形式在群聊中流转。但问题也随之而来:这些图像里的文字无法被搜索、不能自…

作者头像 李华
网站建设 2026/4/16 12:42:17

Edge扩展程序设想:选中文本区域直接调用HunyuanOCR识别

Edge扩展程序设想:选中文本区域直接调用HunyuanOCR识别 在日常浏览网页时,你是否曾遇到这样的尴尬——看到一段关键信息被嵌入图片、PDF预览模糊无法复制、或是外文图表中的文字难以摘录?传统做法是截图 → 打开OCR工具 → 粘贴识别 → 复制结…

作者头像 李华
网站建设 2026/4/16 14:27:07

CSDN官网技术帖推荐:腾讯混元OCR在实际项目中的落地经验

腾讯混元OCR在实际项目中的落地经验 在金融柜台、政务窗口或是跨境电商后台,每天都有成千上万张身份证、发票、合同被拍照上传。传统流程中,这些图像需要经过多个独立模型接力处理:先检测文字位置,再识别内容,最后抽取…

作者头像 李华
网站建设 2026/4/16 12:42:00

夸克网盘直链下载助手与OCR结合?提取链接中的关键信息

夸克网盘直链下载助手与OCR结合?提取链接中的关键信息 在数字内容共享日益频繁的今天,你是否也遇到过这样的场景:朋友发来一张截图,里面是夸克网盘的分享链接和提取码,但你却无法直接点击或复制?只能手动一…

作者头像 李华
网站建设 2026/4/16 12:41:22

清华镜像源更新日志:HunyuanOCR模型已加入AI仓库

清华镜像源上线 HunyuanOCR:轻量级多模态 OCR 的实践突破 在文档数字化进程不断加速的今天,从身份证识别到合同解析,从视频字幕提取到跨语言翻译,OCR 已不再只是“把图片变文字”的工具。它正演变为一个融合视觉理解、语义推理与结…

作者头像 李华
网站建设 2026/4/15 1:36:41

HunyuanOCR支持端到端文档问答?实测PDF内容交互能力

HunyuanOCR支持端到端文档问答?实测PDF内容交互能力 在企业日常运营中,处理成千上万的发票、合同、申请表等非结构化文档是一项既耗时又容易出错的任务。传统OCR工具虽然能“看见”文字,却难以“理解”上下文——比如面对一张跨国电商发票&am…

作者头像 李华