news 2026/4/16 17:24:48

星尘智能自研Lumo-1模型:让机器人心手合一,迈进推理-行动闭环时代

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
星尘智能自研Lumo-1模型:让机器人心手合一,迈进推理-行动闭环时代

让机器人像人一样推理,能更像人一样行动。
从走路、跳舞到后空翻,动作模仿教会了机器人「怎么动」,到端盘子、分拣水果、热食物等复杂操作时,机器人不能只模仿,更要深度决策——识别复杂环境,理解「为什么做」的任务意图,再转化为「动手这么做」的连贯操作。
从类人操作到类人智能,具身智能逐渐迈入「心手合一」的推理-行动时代。
星尘智能 Astribot Lumo-1 模型应运而生!

这是一个自研端到端视觉-语言-动作的全身VLA模型,借助具身化VLM、跨本体联合训练、推理-动作真机训练,以及强化学习校准对齐等方式,配合绳驱机器人S1的高质量真机训练,将大模型「深度心智」转化成全身丝滑操作。
Lumo 在拉丁语中意为光亮和启发,希望它能成为一束照进具身智能的光:让机器人能「懂你说什么」,还能「知道为什么」,然后「自己决定怎么做」。
项目主页:www.astribot.com/research/Lumo1
技术报告:https://arxiv.org/pdf/2512.08580

Lumo-1展现了强大的操作智能与泛化能力,在多步骤长时序、精细灵巧操作、可泛化抓放等三类核心任务中,全部超越π0、π0.5等先进模型,尤其在未见过的物体、场景和指令等分布外情况(Out of Distribution,简称OOD),以及抽象、模糊、需扩展推理的指令中,优势更为明显。
通用抓取放置任务效果远超π0
长时序、精细操作类核心任务效果超越 π0 和 π0.5
三大特点 推动「心手合一」

在 Lumo-1 里,通过1) 动作空间建模SAT(Spatial Action Tokenizer),机器人将动作轨迹转化为可复用、组合的「动作单词库」,能像写句子一样组合动作,或者复用、解释和预测动作。技术上,SAT将连续动作轨迹压缩成最短路径点,并把旋转/平移的增量动作聚类成紧凑token等,在保持动作空间意义时,减少数据收集引入的无关噪音,比FAST与分桶方法等更紧凑和稳定。

通过2) 结构化推理(Structured Reasoning),机器人大脑不再死记轨迹,而是形成解释动作的结构化推理链,从执行动作到「执行想法」。模型围绕目标进行抽象推理、子任务拆解、视觉要素识别与空间动作推断,使「为什么这样做」先于「怎么做」。最终,它把视觉理解映射为路径点预测,让 2D 预测自然落到 3D 控制上,实现更有目的性、情境化的动作生成。
把可以画海洋的物品放入绿盘子

推理很强 ≠ 执行一定成功。Lumo-1 在最后加入3) 强化学习推理-行动对齐(RL Alignment),校准对齐高级推理与低级动作之间的误差,设计了视觉、动作与推理一致、动作执行、推理格式等多维度的奖励信号,通过基于GRPO的学习方案鼓励模型选择更准确、连贯、符合物理规则的动作。实验表明,该方案使模型在任务成功率、动作合理性与泛化能力上显著超越模仿专家示范的原始表现。

三阶训练 VLM认知转化为VLA智能
Lumo-1 的训练不是堆规模,而是精心设计的「智力迁移」过程。
阶段 1:具身化 VLM(Embodied VLM)。在精选的视觉-语言数据上持续预训练,让模型具备空间理解、规划、轨迹推断等「具身语义」。在 7 个经典具身推理基准中大部分超过 RoboBrain-7B、Robix-7B 等专用模型。
精选数据集旨在不损伤预训练VLM的通用多模态理解与推理能力前提下,强化核心具身推理能力。

阶段 2:跨本体联合训练。融合跨机器人、多视角轨迹、VLM数据上联合训练,强化了指令跟随、物体定位与空间推理能力,使模型开始理解「动作是什么,与指令和观测是什么关系」。
阶段 3:真机推理-动作训练(S1轨迹)。利用绳驱机器人 Astribot S1 高度仿人的示教轨迹,进行带推理过程的动作训练,让模型习得真实世界可执行的动作模式,比如:怎么用双手协同处理物体、如何执行长序列操作、如何将推理一步步落实为轨迹等。
Astribot S1机器人上收集的样本任务。这些任务涵盖了广泛的日常活动,采集自不同的物体、光照条件及环境场景。每项任务均涉及复杂、长时序行为,可自然分解为多个子任务,包含多样化的基础动作单元,例如清扫、削皮、倾倒、刷洗、折叠、按压和旋转等
最后加入 RL 校准对齐,闭合整个推理-行动链路,让平均奖励上升,错误率降低,在真实环境中泛化能力更强。
Lumo-1 训练结果验证 Scaling Law
多样化数据是关键变量,缺乏增强的数据会导致执行在现实中迅速失效;多样提示、图像增强、跨场景训练大幅提升鲁棒性。具身智能除了数据堆叠,也对数据「更像世界」提出了更高要求。
Lumo-1 的训练结果验证了 Scaling Law ,在数据受限下,模型 loss 走势与扩展定律高度一致,Lumo-1 是「可继续放大」的。
我们将推动这束「微光」,向可大规模部署的通用具身智能迈进。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 16:46:57

Hap编解码器完整指南:GPU加速视频播放的终极解决方案

Hap编解码器完整指南:GPU加速视频播放的终极解决方案 【免费下载链接】hap-qt-codec A QuickTime codec for Hap video 项目地址: https://gitcode.com/gh_mirrors/ha/hap-qt-codec 在现代视频制作和播放领域,Hap编解码器凭借其强大的GPU加速技术…

作者头像 李华
网站建设 2026/4/16 4:34:47

行为驱动算法大揭秘,如何让元宇宙数字人“活”起来?

第一章:元宇宙的数字人 Agent 行为驱动在元宇宙中,数字人 Agent 不仅是虚拟世界的参与者,更是具备自主决策与交互能力的核心实体。其行为驱动机制依赖于多模态感知、自然语言理解与强化学习模型的协同工作,使 Agent 能够根据环境变…

作者头像 李华
网站建设 2026/4/16 1:35:15

5分钟掌握DBeaver数据安全:智能备份与灾难恢复完全指南

5分钟掌握DBeaver数据安全:智能备份与灾难恢复完全指南 【免费下载链接】dbeaver 项目地址: https://gitcode.com/gh_mirrors/dbe/dbeaver 你是否曾经因为DBeaver突然崩溃而丢失了精心编写的SQL脚本?据统计,超过25%的数据库开发者都经…

作者头像 李华
网站建设 2026/4/16 11:52:05

微调完成后如何做AB测试?Llama-Factory集成部署建议

微调完成后如何做AB测试?Llama-Factory集成部署建议 在当前大模型落地场景日益丰富的背景下,企业不再满足于通用语言模型的“泛化能力”,而是迫切需要能精准理解行业语境、输出风格一致的专业化AI助手。比如医疗领域希望模型准确解释“胰岛素…

作者头像 李华
网站建设 2026/4/16 10:38:45

白银突破60美元:2025最强贵金属诞生?年内暴涨110%领跑黄金

2025年的贵金属市场,出现了一个罕见的场面:领跑者不是黄金,而是白银。12月,白银价格正式突破61美元盎司,这是历史上首次站上这一关键价位。令人震撼的是,白银年内涨幅已超过 110% ——几乎是黄金涨幅&#…

作者头像 李华
网站建设 2026/4/16 11:50:33

上下文感知推荐如何解决80%的无效推荐?3大实战案例深度解析

上下文感知推荐如何解决80%的无效推荐?3大实战案例深度解析 【免费下载链接】fun-rec 推荐系统入门教程,在线阅读地址:https://datawhalechina.github.io/fun-rec/ 项目地址: https://gitcode.com/datawhalechina/fun-rec 为什么推荐系…

作者头像 李华