一张图拆成256个patch,Transformer算到冒烟?背景区域纯属浪费。
本文提出GridS:可微网格采样,主动预测K个连续坐标 + 双线性插值,token数砍到16甚至1,FLOPs降76%,真实机器人堆叠积木成功率从7.6%飙到60%,OOD场景下+38.1%。
代码已开源,附LIBERO-PLUS全难度评测。
代码:https://github.com/Fediory/Grid-Sampler
网页/demo:Grid Sampler — ICML 2026
论文:[2605.11817] See What Matters: Differentiable Grid Sample Pruning for Generalizable Vision-Language-Action Model
作者/单位:
Yixu Feng1, Zinan Zhao2, Yanxiang Ma1, Chenghao Xia3, Chengbin Du3, Yunke Wang1, Chang Xu1
1 University of Sydney · 2 City University of Hong Kong · 3 StellarEdge Robotics
1. 痛点:VLA模型为啥跑不动?
目前主流VLA(Vision-Language-Action)模型如π0、SmolVLA、OpenVLA,处理图像的方式基本沿用ViT:
把224×224的图切成16×16的patch → 256个视觉token。
下游Transformer的复杂度是O(N²),256²=65536,再乘层数、batch、多视角……推理延迟感人。
更关键的是,大部分token来自背景、桌面、阴影,跟当前任务(比如“抓住绿色方块”)毫无关系。
之前有人做token剪枝,要么按语义重要性丢掉patch(FastV、SparseVLM),要么用启发式规则动态保留。
但这些方法有两个致命伤:
离散选择 + 固定网格:抓取点落在两个patch之间时,只能选左边或右边 → 量化误差,精细操作必崩。
训练时不可微:剪枝策略没法通过任务loss学习,效果掉得厉害(LIBERO上-1.5%~-4.6%)。
2. 我们的方案:GridS(Differentiable Grid Sampler)
核心思想:不丢patch,而是主动预测连续坐标,然后双线性采样。
2.1 整体流程(附伪代码级解释)
密集特征提取(预训练ViT,可冻结)
输入图像 I ∈ R^(3×H_R×W_R) → 特征图 T_dense ∈ R^(H×W×C)(比如16×16×768)全局坐标预测
对T_dense做全局平均池化 → 上下文向量 z ∈ R^C
轻量MLP + Sigmoid → 预测K个归一化坐标 P ∈ [0,1]^(K×2),K << H×W可微双线性采样(核心创新)
对每个坐标 (x,y),找到四个最近邻网格点,按距离加权求和:# 伪代码 x1, y1 = floor(x), floor(y) dx, dy = x - x1, y - y1 w1 = (1-dx)*(1-dy); w2 = dx*(1-dy) w3 = (1-dx)*dy; w4 = dx*dy F_sampled = w1*F[x1,y1] + w2*F[x1+1,y1] + w3*F[x1,y1+1] + w4*F[x1+1,y1+1]这个操作对坐标(x,y)完全可微 → 梯度可以从任务loss流回MLP,让模型自动学会把采样点挪到“最有价值”的位置。
几何信息注入
将坐标P编码成位置编码,加到采样特征上 → 得到最终稀疏token T_spa ∈ R^(K×C)
再与language tokens、action tokens拼接,送入下游Transformer。
2.2 与现有方法的本质区别
| 方法 | 选择方式 | 精度 | 是否可微 | OOD鲁棒性 |
|---|---|---|---|---|
| FastV / SparseVLM | 离散patch丢弃 | 格点级 | ❌ | 差 |
| VLA-Cache | 离散缓存更新 | 格点级 | ❌ | 差 |
| GridS (Ours) | 连续坐标+双线性采样 | 亚像素级 | ✅ | 强 |
3. 实验结果:模拟 + 真实机器人全刷榜
3.1 LIBERO模拟(π0基座)
| 配置 | Visual Tokens | FLOPs (G) | 平均成功率 |
|---|---|---|---|
| Baseline | 256 | 216.0 | 94.4% |
| π0 + FastV† | 100 | 143.5 | 92.9% (-1.5) |
| π0 + SparseVLM† | 100 | 150.3 | 89.8% (-4.6) |
| π0 + GridS | 16 | 51.6 | 96.0% (+1.6) |
| π0 + GridS | 4 | 43.6 | 95.5% (+1.1) |
FLOPs降低76%,训练速度(batch=128)提升3.4倍
长序列任务(Long)从85.6% → 90.2%,证明GridS有效减少误差累积
完整结果如下:
3.2 ALOHA双机械臂精细插入
| 方法 | Tokens | 插入(人类示教)成功率 |
|---|---|---|
| π0 Baseline | 256 | 56.7% |
| π0 + GridS | 16 | 64.2% (+7.5) |
3.3 真实机器人SO100:堆叠积木(最炸裂的结果)
任务:绿色方块叠到蓝色方块上(需要精准对准+适时放手)
基线:SmolVLA(64 tokens)成功率仅7.6%,几乎每次都失败
GridS(16 tokens):成功率60.0%,绝对提升+52.4%,同时执行时间减少3.3秒
OOD场景(21种:换背景/加干扰物/移动物体位置/改变光照):
基线:0%
GridS:38.1%
这意味着GridS不是死记硬背训练轨迹,而是真正学到了“几何交互”的因果结构。
完整结果如下:
3.4 LIBERO-PLUS(OOD测试)
LIBERO-PLUS包含7种扰动:相机视角、光照颜色/方向、背景纹理、物体布局、传感器噪声、机器人初始关节、语言指令改写。
我们测试了π0.5 + GridS(K=32) vs 基线(256 tokens):
| 扰动维度 | 基线 | GridS | Δ |
|---|---|---|---|
| 相机视角 (Spatial) | 67.0% | 86.4% | +19.4% |
| 光照条件 (Goal) | 85.7% | 97.8% | +12.1% |
| 传感器噪声 (LIBERO-10) | 78.4% | 84.0% | +5.6% |
| 难度Level-5 (最困难) | 52.6% | 56.0% | +3.4% |
而现有离散剪枝方法在LIBERO-PLUS上崩溃超过20%。
GridS牺牲不到3%的平均成功率(87.5%压缩率),换来了视觉OOD下的大幅反超。
3.5 附录里的“疯子实验”:单token
用π0.5 + GridS,K=1(99.6% token被砍掉)。
基线(256 tokens)平均成功率96.7% →GridS单token 96.6%,几乎没掉。
这说明VLA模型中存在巨大的信息冗余,真正需要的只是一个“最小充分统计量”。
4. 消融实验与关键发现
4.1 K值选择(真实机器人堆叠)
| K | 成功率 | 分析 |
|---|---|---|
| 4 | 0% | 信息瓶颈,几何分辨率不足 |
| 8 | 28.5% | 部分恢复 |
| 16 | 60.0% | 最优 |
| 32 | 19.0% | 引入过多背景噪声 |
| Baseline(64) | 7.6% | 噪声淹没信号 |
呈现倒U型 → 适当的压缩可以滤除干扰,过度压缩或不足都不行。
4.2 其他组件验证
随机采样(K=16):成功率87.8%(vs GridS 96.0%)→ “采哪儿”非常关键
Top-K按激活值剪枝:90.5%,仍不如GridS
用SAM引导采样:掉6.2% → 语义分割 ≠ 任务驱动几何采样
去掉坐标编码:掉3.6% → 连续采样破坏了空间结构,必须显式注入坐标
5. 局限性 & 未来工作
单batch推理加速不明显(~1.2x)
因为JAX编译已经把基线优化得很极致,瓶颈移到kernel launch。但大batch(128)下3.2倍加速,训练时3.4倍加速,对服务器端/集群很友好。需要全参数微调
用LoRA会掉8.3%,因为GridS彻底改变了token分布,低秩适应不足以对齐注意力。未来需要设计PEFT友好版本。K值是固定的
当前手动设定,无法根据场景复杂度动态调整。可以扩展为预测每个样本的K,是一个有趣的方向。
6. 代码 & 使用建议
集成方式:作为plug-and-play模块,插在ViT编码器和下游Transformer之间。
推荐配置:
全参数微调(或至少解冻部分层)
K=16作为起点(平衡精度与速度)
输入分辨率保持原样(GridS会在特征图上采样)
7. 总结
GridS的核心贡献不是“又一种剪枝”,而是重新定义了VLA的视觉感知范式:
从“被动保留重要patch”转向“主动采样最小充分统计量”。
它证明了:
机器人任务不需要全图细节,只需要几何关键点
适当的信息丢失(0.8~0.9保留率)反而提升OOD泛化
可微连续采样彻底摆脱了固定网格的量化误差
如果你也在做具身智能、机器人学习、模型压缩,强烈推荐试一下GridS。
代码干净,效果暴力,欢迎提issue和PR。