让机器人看视频学操作技能，清华等全新发布的CLAP框架做到了-编程阁

清华大学与星尘智能、港大、MIT 联合提出基于对比学习的隐空间动作预训练（Contrastive Latent Action Pretraining, CLAP）框架。

近日，清华大学与星尘智能、港大、MIT 联合提出基于对比学习的隐空间动作预训练（Contrastive Latent Action Pretraining, CLAP）框架。这个框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐，也就是说，机器人能够直接从视频中学习技能！

论文标题：CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos
论文地址：https://arxiv.org/abs/2601.04061
项目地址：https://lin-shan.com/CLAP/

引言

长期以来，机器人学习面临着一个令人头疼的「数据饥荒」难题：互联网上有着数以亿计的人类行为视频，但专门用于训练机器人的数据却寥寥无几。

这种数据不对称现象的根源在于，收集机器人操作数据需要昂贵的硬件设备、专业的操作环境，以及大量的人工标注工作，成本高昂且效率低下。相比之下，人类行为视频数据虽然丰富，但由于视觉表征与机器人动作空间之间存在巨大的语义鸿沟，传统方法难以有效利用这些资源。

现有的潜在动作模型（Latent Action Models）试图利用视频数据，但往往会遭遇「视觉纠缠」（visual entanglement）问题 —— 模型学到的更多是与实际操控无关的视觉噪声，而非真实的操控技能。

CLAP 框架的核心创新正是解决了这一长期困扰业界的技术瓶颈。该框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐，有效避免了以往潜在动作模型中普遍存在的「视觉纠缠」问题。通过对比学习，CLAP 将视频中的状态转移映射到一个量化的、物理上可执行的动作码本上。

研究团队基于两种 VLA 建模范式进行训练：其一是 CLAP-NTP，一种自回归模型，在指令跟随与对象泛化方面表现突出；其二是 CLAP-RF，一种基于 Rectified Flow 的策略，面向高频率、精细化的操控。

这一技术突破的实际意义体现在多个层面。首先，从数据利用效率来看，CLAP 框架使得机器人能够从 YouTube、抖音等平台上的海量视频中学习技能，极大扩展了可用训练数据的规模。其次，从成本效益角度分析，这种「看视频学技能」的方式显著降低了机器人技能获取的门槛。

此外，该框架还解决了机器人学习中的一个关键技术挑战 —— 知识迁移问题。通过知识匹配（Knowledge Matching, KM）正则化策略，CLAP 有效缓解了模型微调过程中的灾难性遗忘现象，确保机器人在学习新技能的同时不会丢失已掌握的能力。

从产业应用前景来看，CLAP 框架的长期价值不仅在于技术创新，更在于其对机器人产业化进程的推动作用。当机器人能够通过观看视频快速掌握新技能时，企业部署机器人的成本和周期将大幅降低，这有望加速机器人在服务业、制造业等领域的规模化应用。

详解 CLAP 框架

研究团队构建了一个统一的视觉 - 语言 - 动作（VLA）框架，使其能够同时利用机器数据的动作精确性与大规模无标注人类视频演示的语义多样性。框架分为两个相互衔接的阶段：

通过 CLAP 进行跨模态对齐：建立共享的潜在动作空间，弥合无标注人类视频与有标注机器人轨迹之间的监督缺口。该过程基于对比学习进行隐空间动作预训练（CLAP）：它将人类视频中的视觉状态转移「锚定」到一个量化的、物理上可执行的动作空间中。

分层策略训练：研究团队通过连续训练两个 VLA 模型，将语义理解与控制动力学有效解耦：

CLAP-NTP：采用「下一词元预测」（Next-Token-Prediction）训练的 VLA，擅长指令跟随与任务规划；
CLAP-RF：包含一个 VLM 模型与一个采用 Rectified Flow 训练的动作专家，以实现高频、精确控制。

为高效适配新的本体形态并防止预训练先验在微调中发生灾难性遗忘，研究团队进一步提出知识匹配（Knowledge Matching, KM）微调策略：一种正则化方法，在微调过程中将策略更新锚定在可信区域内。

实验结果

大量实验表明，CLAP 显著优于强基线方法，使得从人类视频中学习到的技能能够有效迁移到机器人执行中。

下表 1 为初始设置下，CLAP 与基线方法在真实世界任务中的性能比较。

下表2 为 CLAP 与基线方法在环境扰动下的鲁棒性评估。

更多实验结果请参阅原论文。

你的论文有novelty吗？复旦搞了个顶会论文查新系统

复旦大学 NLP 研究团队与其此前孵化的学术搜索平台 WisPaper 展开合作，共同研发了 OpenNovelty——一个基于大语言模型、强调证据与可验证性的自动化新颖性分析系统。ICLR 2026 的 Rebuttal 结束了。当 OpenReview 上的喧嚣散去，我们发现，作者…

李华

好写作AI｜法学论文“案例推演”伙伴：当AI开始检索“罗翔说”，我的案例库突然降维打击

还在手动对比张三的108种“犯罪未遂”？你的AI判例引擎已启动，专治各种“这个案子好像能用但我不敢确定”的学术内耗。深夜的法学院图书馆，你正为论文焦头烂额——“这个判例到底能不能支撑我的观点？”你盯着两份看似相似但结果相反…

李华

上市公司气候冲击（2011-2023）

1894上市公司气候冲击（2011-2023）数据简介随着全球气候变化不断加剧，极端的气候灾害事件愈加频发多发。气候灾害给实体经济的生产秩序和金融市场的稳定运行造成负面干扰。气候灾害事件的影响范围会逐渐扩散至实体经济领域，改变宏观…

李华

WiderPerson 数据集完整处理教程：从数据理解到 YOLO 格式转换

文章目录 WiderPerson数据集完整处理教程：从数据理解到YOLO格式转换引言 WiderPerson数据集详细介绍数据集背景与重要性数据集结构深度分析标注格式详细解读环境准备与依赖安装开发环境配置数据集下载与存放数据可视化与质量检验标注可视化的重要性改进的可视化代码…

李华

Jetson Nano 实战指南：深度学习环境配置与 YOLOv5 边缘端部署解析

文章目录一、概述：Jetson Nano深度学习环境构建全景图为什么选择Jetson Nano？环境配置的挑战与解决思路二、部署流程：从系统刷机到AI框架配置的完整路径 2.1 Jetson Nano刷机流程 2.1.1 刷机前的准备工作 2.1.2 系统镜像选择 2.1.3 刷机操作步骤 2.1.4 刷机常见问题解决…

李华

YOLOv8 效能再升级：CBAM 注意力模块（通道 CAM + 空间 SAM）集成与原理解析

YOLOv8 效能再升级：深度解析与集成 CBAMBlock (Convolutional Block Attention Module) 文章目录 YOLOv8 效能再升级：深度解析与集成 CBAMBlock (Convolutional Block Attention Module) 1. 探索注意力机制的奥秘 2. CBAM (Convolutional Block Attention Module) 原理与结构…

李华