news 2026/5/15 6:15:05

VLA模型太慢?我们把视觉token砍到16个,机器人成功率反而暴涨52.4%|ICML 2026 GridS源码解读

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
VLA模型太慢?我们把视觉token砍到16个,机器人成功率反而暴涨52.4%|ICML 2026 GridS源码解读

一张图拆成256个patch,Transformer算到冒烟?背景区域纯属浪费。
本文提出GridS:可微网格采样,主动预测K个连续坐标 + 双线性插值,token数砍到16甚至1,FLOPs降76%,真实机器人堆叠积木成功率从7.6%飙到60%,OOD场景下+38.1%。
代码已开源,附LIBERO-PLUS全难度评测。

代码:https://github.com/Fediory/Grid-Sampler

网页/demo:Grid Sampler — ICML 2026

论文:[2605.11817] See What Matters: Differentiable Grid Sample Pruning for Generalizable Vision-Language-Action Model

作者/单位:

Yixu Feng1, Zinan Zhao2, Yanxiang Ma1, Chenghao Xia3, Chengbin Du3, Yunke Wang1, Chang Xu1

1 University of Sydney · 2 City University of Hong Kong · 3 StellarEdge Robotics

1. 痛点:VLA模型为啥跑不动?

目前主流VLA(Vision-Language-Action)模型如π0、SmolVLA、OpenVLA,处理图像的方式基本沿用ViT:
把224×224的图切成16×16的patch → 256个视觉token。
下游Transformer的复杂度是O(N²),256²=65536,再乘层数、batch、多视角……推理延迟感人。

更关键的是,大部分token来自背景、桌面、阴影,跟当前任务(比如“抓住绿色方块”)毫无关系。
之前有人做token剪枝,要么按语义重要性丢掉patch(FastV、SparseVLM),要么用启发式规则动态保留。
但这些方法有两个致命伤:

  • 离散选择 + 固定网格:抓取点落在两个patch之间时,只能选左边或右边 → 量化误差,精细操作必崩。

  • 训练时不可微:剪枝策略没法通过任务loss学习,效果掉得厉害(LIBERO上-1.5%~-4.6%)。

2. 我们的方案:GridS(Differentiable Grid Sampler)

核心思想:不丢patch,而是主动预测连续坐标,然后双线性采样

2.1 整体流程(附伪代码级解释)

  1. 密集特征提取(预训练ViT,可冻结)
    输入图像 I ∈ R^(3×H_R×W_R) → 特征图 T_dense ∈ R^(H×W×C)(比如16×16×768)

  2. 全局坐标预测
    对T_dense做全局平均池化 → 上下文向量 z ∈ R^C
    轻量MLP + Sigmoid → 预测K个归一化坐标 P ∈ [0,1]^(K×2),K << H×W

  3. 可微双线性采样(核心创新)
    对每个坐标 (x,y),找到四个最近邻网格点,按距离加权求和:

    # 伪代码 x1, y1 = floor(x), floor(y) dx, dy = x - x1, y - y1 w1 = (1-dx)*(1-dy); w2 = dx*(1-dy) w3 = (1-dx)*dy; w4 = dx*dy F_sampled = w1*F[x1,y1] + w2*F[x1+1,y1] + w3*F[x1,y1+1] + w4*F[x1+1,y1+1]

    这个操作对坐标(x,y)完全可微 → 梯度可以从任务loss流回MLP,让模型自动学会把采样点挪到“最有价值”的位置。

  4. 几何信息注入
    将坐标P编码成位置编码,加到采样特征上 → 得到最终稀疏token T_spa ∈ R^(K×C)
    再与language tokens、action tokens拼接,送入下游Transformer。

2.2 与现有方法的本质区别

方法选择方式精度是否可微OOD鲁棒性
FastV / SparseVLM离散patch丢弃格点级
VLA-Cache离散缓存更新格点级
GridS (Ours)连续坐标+双线性采样亚像素级

3. 实验结果:模拟 + 真实机器人全刷榜

3.1 LIBERO模拟(π0基座)

配置Visual TokensFLOPs (G)平均成功率
Baseline256216.094.4%
π0 + FastV†100143.592.9% (-1.5)
π0 + SparseVLM†100150.389.8% (-4.6)
π0 + GridS1651.696.0% (+1.6)
π0 + GridS443.695.5% (+1.1)
  • FLOPs降低76%,训练速度(batch=128)提升3.4倍

  • 长序列任务(Long)从85.6% → 90.2%,证明GridS有效减少误差累积

  • 完整结果如下:

3.2 ALOHA双机械臂精细插入

方法Tokens插入(人类示教)成功率
π0 Baseline25656.7%
π0 + GridS1664.2% (+7.5)

3.3 真实机器人SO100:堆叠积木(最炸裂的结果)

任务:绿色方块叠到蓝色方块上(需要精准对准+适时放手)
基线:SmolVLA(64 tokens)成功率仅7.6%,几乎每次都失败
GridS(16 tokens):成功率60.0%,绝对提升+52.4%,同时执行时间减少3.3秒

OOD场景(21种:换背景/加干扰物/移动物体位置/改变光照):

  • 基线:0%

  • GridS:38.1%

这意味着GridS不是死记硬背训练轨迹,而是真正学到了“几何交互”的因果结构。

完整结果如下:

3.4 LIBERO-PLUS(OOD测试)

LIBERO-PLUS包含7种扰动:相机视角、光照颜色/方向、背景纹理、物体布局、传感器噪声、机器人初始关节、语言指令改写。
我们测试了π0.5 + GridS(K=32) vs 基线(256 tokens):

扰动维度基线GridSΔ
相机视角 (Spatial)67.0%86.4%+19.4%
光照条件 (Goal)85.7%97.8%+12.1%
传感器噪声 (LIBERO-10)78.4%84.0%+5.6%
难度Level-5 (最困难)52.6%56.0%+3.4%

而现有离散剪枝方法在LIBERO-PLUS上崩溃超过20%。
GridS牺牲不到3%的平均成功率(87.5%压缩率),换来了视觉OOD下的大幅反超。

3.5 附录里的“疯子实验”:单token

用π0.5 + GridS,K=1(99.6% token被砍掉)。
基线(256 tokens)平均成功率96.7% →GridS单token 96.6%,几乎没掉。
这说明VLA模型中存在巨大的信息冗余,真正需要的只是一个“最小充分统计量”。

4. 消融实验与关键发现

4.1 K值选择(真实机器人堆叠)

K成功率分析
40%信息瓶颈,几何分辨率不足
828.5%部分恢复
1660.0%最优
3219.0%引入过多背景噪声
Baseline(64)7.6%噪声淹没信号

呈现倒U型 → 适当的压缩可以滤除干扰,过度压缩或不足都不行。

4.2 其他组件验证

  • 随机采样(K=16):成功率87.8%(vs GridS 96.0%)→ “采哪儿”非常关键

  • Top-K按激活值剪枝:90.5%,仍不如GridS

  • 用SAM引导采样:掉6.2% → 语义分割 ≠ 任务驱动几何采样

  • 去掉坐标编码:掉3.6% → 连续采样破坏了空间结构,必须显式注入坐标

5. 局限性 & 未来工作

  1. 单batch推理加速不明显(~1.2x)
    因为JAX编译已经把基线优化得很极致,瓶颈移到kernel launch。但大batch(128)下3.2倍加速,训练时3.4倍加速,对服务器端/集群很友好。

  2. 需要全参数微调
    用LoRA会掉8.3%,因为GridS彻底改变了token分布,低秩适应不足以对齐注意力。未来需要设计PEFT友好版本。

  3. K值是固定的
    当前手动设定,无法根据场景复杂度动态调整。可以扩展为预测每个样本的K,是一个有趣的方向。

6. 代码 & 使用建议

集成方式:作为plug-and-play模块,插在ViT编码器和下游Transformer之间。
推荐配置

  • 全参数微调(或至少解冻部分层)

  • K=16作为起点(平衡精度与速度)

  • 输入分辨率保持原样(GridS会在特征图上采样)

7. 总结

GridS的核心贡献不是“又一种剪枝”,而是重新定义了VLA的视觉感知范式:

从“被动保留重要patch”转向“主动采样最小充分统计量”。

它证明了:

  • 机器人任务不需要全图细节,只需要几何关键点

  • 适当的信息丢失(0.8~0.9保留率)反而提升OOD泛化

  • 可微连续采样彻底摆脱了固定网格的量化误差

如果你也在做具身智能、机器人学习、模型压缩,强烈推荐试一下GridS。
代码干净,效果暴力,欢迎提issue和PR。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/15 6:08:06

【清华SRA】Skill Retrieval Augmentation for Agentic AI

目录BackgroundMethodProblem FormulationBenchmark ConstructionExperimentsStudy DesignExperimental SetupSystematic Empirical StudyCurrent LimitationBackground 为什么需要skills&#xff1f; 传统大模型逐渐转向Agentic AI&#xff0c;从被动的文本生成器转变为能主动…

作者头像 李华
网站建设 2026/5/15 6:07:04

全域数学·体积与表面积通项定理【乖乖数学】

全域数学体积与表面积通项定理【乖乖数学】 定理编号&#xff1a;GM-GenForm-20260520 作者&#xff1a;乖乖数学 成文时间&#xff1a;2026 年 5 月 20 日 编入典籍&#xff1a;《数理原本 第 0 卷0 幺无穷本源卷》增补核心定理&#x1f4c4; 文档 1 总结&#xff1a;《全域数…

作者头像 李华
网站建设 2026/5/15 6:04:42

西电B测:基于SystemView的2PSK调制解调仿真与性能分析

1. SystemView与2PSK调制解调基础 SystemView作为通信系统仿真领域的"瑞士军刀"&#xff0c;我在学生时代第一次接触就感受到它的强大。这个由美国ELANIX公司开发的工具&#xff0c;用可视化的图符&#xff08;Token&#xff09;搭建系统模型的方式&#xff0c;让通信…

作者头像 李华
网站建设 2026/5/15 6:04:25

嵌入式引导加载程序设计:从UART升级到OTA的实战指南

1. 项目概述&#xff1a;为什么“面向未来”要从引导加载程序开始&#xff1f;在嵌入式开发这个行当里摸爬滚打了十几年&#xff0c;我见过太多项目在初期风风火火&#xff0c;上线后却因为一个看似不起眼的问题而陷入泥潭&#xff1a;固件无法更新。客户反馈了一个致命Bug&…

作者头像 李华
网站建设 2026/5/15 6:01:39

智能画板开发实战:从草图识别到AI生成的技术架构与实现

1. 项目概述&#xff1a;一个“智能”的交互式数字画板最近在GitHub上看到一个挺有意思的项目&#xff0c;叫“Int-Pad”&#xff0c;直译过来就是“智能画板”。乍一看&#xff0c;你可能会觉得这又是一个简单的绘图应用&#xff0c;但点进去细究&#xff0c;你会发现它的野心…

作者头像 李华
网站建设 2026/5/15 6:01:35

AI智能体开发框架openclaw:模块化设计与RAG应用实战

1. 项目概述&#xff1a;一个面向开发者的AI智能体构建平台最近在GitHub上看到一个挺有意思的项目&#xff0c;叫openclaw-ai-agent-setup。光看这个名字&#xff0c;可能有点抽象&#xff0c;但如果你对AI智能体、自动化工作流或者RAG&#xff08;检索增强生成&#xff09;应用…

作者头像 李华