news 2026/4/15 9:13:25

【论文自动阅读】GREAT MARCH 100:100项细节导向任务用于评估具身AI agent

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】GREAT MARCH 100:100项细节导向任务用于评估具身AI agent

快速了解部分

基础信息(英文):

1.题目: THE GREAT MARCH 100:100 DETAIL-ORIENTED TASKS FOR EVALUATING EMBODIED AI AGENTS
2.时间: 2026.01
3.机构: ISJTU, SII, RHOS.ai, Robbyant, Antgroup
4.3个英文关键词: Robot Learning, Task Design, Evaluation Benchmark

1句话通俗总结本文干了什么事情

本文提出了一个名为“Great March 100 (GM-100)”的机器人学习评测基准,包含100个精心设计的、涵盖长尾行为的任务,旨在解决现有评测任务过于单一、无法全面评估机器人智能水平的问题。

研究痛点:现有研究不足 / 要解决的具体问题

现有的机器人任务数据集和评测标准往往只关注“拿起并握住”等常见高频任务,缺乏对复杂、罕见的“长尾任务”的覆盖,导致模型存在严重偏差,且难以在不同方法间进行公平、全面的性能区分。

核心方法:关键技术、模型或研究设计(简要)

利用大语言模型(Qwen3)结合人类物体交互原语(HOI)和物体可供性(Affordance)自动生成候选任务,再通过LLM与人类专家混合筛选,最终构建了包含100个高挑战性任务的基准数据集,并在真实机器人平台上收集了1.3万条轨迹数据进行验证。

深入了解部分

相比前人创新在哪里

  1. 视角转变:不依赖人类主观的实用性判断,而是基于物理常识和低级操作知识(How-level affordance)来生成任务。
  2. 长尾覆盖:专门针对现有数据集中缺失的复杂、罕见行为进行系统性设计,增加了任务的多样性和挑战性。
  3. 社区驱动:不追求绝对中心化的物理测试环境,而是建立开源平台,鼓励社区上传结果和视频证据,通过集体监督进行长期评估。

解决方法/算法的通俗解释

本文并不是提出一个新算法,而是建立了一个“机器人奥运会”的比赛项目库。它利用AI(Qwen3)学习人类如何与物体互动的原理,自动脑暴出各种各样的任务(比如“把垃圾扔进垃圾桶”),然后通过AI和专家筛选出最难、最能考验机器人能力的100个任务作为标准考题。

解决方法的具体做法

  1. 数据收集与分析:分析现有任务(如Agibot, Open X-Embodiment),去除重复项,发现任务多集中在“抓取”等常见动词。
  2. 任务生成:利用Qwen3模型,输入人类交互原语(如“切”、“倒”),让模型列举相关物体并生成具体任务描述。
  3. 筛选与优化:先用LLM自动评分机器人的可执行性,再由5位人类专家进行最终筛选,确保任务在现有硬件下可行且适合遥操作收集数据。
  4. 数据集构建:在Agilex Cobot Magic和Dobot Xtrainer两个平台上收集了超过1.3万条轨迹数据。

基于前人的哪些方法

基于人类物体交互研究(如HAKE、PaStaNet、OCL)中的交互原语和物体可供性概念,以及前人的任务列表(如Agibot和π 0 .5 \pi_0.5π0.5的评测任务)作为基础进行扩展和语义分析。

实验设置、数据、评估方式、结论

  • 实验设置:使用Agilex Cobot Magic(双臂移动平台)和Dobot Xtrainer(双臂固定平台)。
  • 数据:收集了13,000多条遥操作轨迹,每个任务包含100条训练轨迹和30条固定测试轨迹。
  • 评估方式
    • 成功率 (SR):任务完全完成的比例。
    • 部分成功率 (PSR):子任务完成的比例(针对复杂任务)。
    • 动作预测误差:预测动作与真实动作的均方误差(MSE)。
  • 结论:GM-100任务具有可行性但极具挑战性,能有效区分不同VLA模型(如Diffusion Policy,π 0 \pi_0π0,π 0 .5 \pi_0.5π0.5)的性能。实验显示π 0 .5 \pi_0.5π0.5在动作预测精度和物理任务成功率上均表现最佳。

提到的同类工作

Open X-Embodiment, Agibot, BridgeData V2, RH20T, DROID, RoboCOIN, RoboMIND, RT-2, OpenVLA, GR00T。

和本文相关性最高的3个文献

  1. HAKE(Yong-Lu Li et al.): 提供了人类活动知识引擎,是本文任务生成中交互原语的重要来源。
  2. Agibot(Qingwen Bu et al.): 作为现有的大规模操作数据集,是本文进行任务设计对比和分析的基础之一。
  3. π 0 .5 \pi_0.5π0.5(Physical Intelligence et al.): 本文将其作为基线模型之一,同时也是任务设计参考的来源之一。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/27 1:50:26

ollama部署本地大模型:embeddinggemma-300m助力企业构建私有向量数据库

ollama部署本地大模型:embeddinggemma-300m助力企业构建私有向量数据库 1. 为什么企业需要轻量级嵌入模型 你有没有遇到过这样的问题:想在公司内部搭建一个文档检索系统,但发现主流的7B、14B参数量嵌入模型动辄要占用8GB以上显存&#xff1…

作者头像 李华
网站建设 2026/4/7 18:28:17

VibeVoice功能测评:支持4人对话的TTS到底强在哪?

VibeVoice功能测评:支持4人对话的TTS到底强在哪? 你有没有试过让AI读一段三人辩论?或者生成一期双人科技播客,结果听着像机器人轮流念稿——音色突变、停顿生硬、情绪平得像白开水?更别说让四个角色轮番上场还保持自然…

作者头像 李华
网站建设 2026/4/9 3:33:49

HeyGem数字人系统实测:10个视频批量生成仅需20分钟

HeyGem数字人系统实测:10个视频批量生成仅需20分钟 你有没有试过——为同一段产品讲解音频,反复导出10个不同背景、不同角度的数字人视频?手动操作要拖进剪辑软件、逐个对口型、导出、重命名……光是准备就耗掉一整个下午。 这次我用HeyGem…

作者头像 李华
网站建设 2026/4/9 10:48:33

代码覆盖率统计工具

1、非修改序列算法 这些算法不会改变它们所操作的容器中的元素。 1.1 find 和 find_if find(begin, end, value):查找第一个等于 value 的元素,返回迭代器(未找到返回 end)。find_if(begin, end, predicate):查找第…

作者头像 李华
网站建设 2026/4/2 14:19:14

【计算机毕业设计案例】基于SSM的学生选课系统学生可查看选课状态,包括已选、待审核和未选中课程(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/14 14:53:46

MATLAB/Simulink三相静止无功发生器SVG(电压型桥式电路)系统仿真模型附报告文档(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

MATLAB/Simulink三相静止无功发生器SVG(电压型桥式电路)系统仿真模型附报告文档(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码SVG的主电路是利用电压型桥式电路或电流型桥式电路通过电感或直接接到电网中,通过调节…

作者头像 李华