Science 子刊｜浙大高飞团队：“盲穿”5cm窄缝，90度侧飞，刷新无人机窄缝穿越纪录！-编程阁

「端到端策略无限逼近机械极限」

01 为什么窄缝穿越至今还是个难

02 让策略直接"看见→动作"，跳过所有中间环节

策略蒸馏：把难题拆成两个子问题

知情重置：RL训练的"跳板"

Sim-to-Real：五层随机化兜底

03 几个值得拆开看的实验

04 放在行业坐标系里看

窄缝穿越是无人机机动性测试的"标尺题"。看上去简单，实际包含了感知、决策、控制的全部难点。

过去近十年，这个方向的主流做法一直沿着模块化架构走：先用视觉提取缝隙特征，再做状态估计，然后轨迹规划，最后跟踪控制。每个环节都得精细调参，换个场景往往重来一遍。

6月11日，浙江大学高飞团队在《Science Robotics》上发表了题为"Precise aggressive aerial maneuvers with sensorimotor policies"的研究。

论文共同第一作者为浙大控制科学与工程学院巫天越、浙大湖州研究院徐广通，通讯作者为高飞。

这是高飞团队继2025年4月在Science Robotics发表无人机自主特技飞行工作后，在该顶刊上的第二篇论文。

两次登刊，技术路线却截然不同。上一次走的是基于模型的轨迹优化路线，这一次转向了纯数据驱动的感觉运动学习。

核心思路很直接：把感知到控制的整条链路，压缩进一个端到端的感觉运动策略里。

策略直接从机载视觉和本体感知映射为底层控制指令，不经过状态估计、不经过轨迹规划、不经过人工特征提取。它能驱动一台38cm轴距的四旋翼，在仅5cm间隙余量、最高90度倾斜的矩形缝隙中自主穿越，全过程不依赖外部定位，也不依赖对缝隙位姿的先验知识。

图 | 工作原理、硬件平台与四大核心功能展示

01 为什么窄缝穿越至今还是个难

这项任务难点并非飞行速度，而是严苛的物理约束。

四旋翼大倾角穿越时，机体碰撞边界形成强非凸约束，容错空间极小。以实验所用20cm×60cm缝隙为例，机身高10cm，两侧仅各留5cm余量，姿态、位置稍有偏差便会发生碰撞。

图 | UZH团队四旋翼飞行器穿越一条狭窄且倾斜45°的间隙时的连续过程

过往研究存在明显短板：

2017年UZH团队实现纯机载传感穿越，但依赖预设轨迹与模块化链路，无法实时感知、重规划；后续研究将倾角提升至45°、间隙缩小至8cm，依旧局限于人工特征与规则化规划。

模块化架构普遍存在信息损耗与级联误差，视觉、估测环节的偏差会逐级放大，算法难以适配光照、外形不同的新场景。

02 让策略直接"看见→动作"，跳过所有中间环节

文章的方法论沿用了策略蒸馏（policy distillation）的经典框架，但关键在于两点工程创新：

一是用知情重置（Informed Reset, IR）解决了RL在SE(3)约束空间中的探索难题；
二是设计了一套完备的sim-to-real迁移方案。

策略蒸馏：把难题拆成两个子问题

整个训练流程分两步走：

图 | 网络结构细节（RL 网络与蒸馏部署网络架构）

第一步（教师阶段）：在仿真中用强化学习训练一个"教师策略"，但给它的是低维特权信息——缝隙边缘上采样的32个3D点坐标（替代原始图像）、本体姿态角、机体线速度等。这一步避开了从高维像素输入直接学RL的样本效率噩梦。RL使用PPO算法，奖励函数的设计覆盖了穿越精度、姿态平滑、速度约束等多个维度。

第二步（学生阶段）：用监督学习训练一个"学生策略"，输入还原为真实的机载感知——320×256的掩膜缝隙图像+本体姿态角，输出4维控制指令（集体推力+三轴角速度）+1维穿越完成检测信号。训练算法用DAgger的在线变体，只采用当前策略采集的样本，抑制离线学习的协变量偏移。学生策略的网络骨架是一个轻量CNN编码器接单层GRU，再过一个前馈MLP输出动作——整体足够轻量，可以在Jetson Orin NX上实时运行。

图 | 策略训练框架（强化学习 + 策略蒸馏双阶段流程）

这个设计本质上是让奖励信号对不同姿态下的穿越精度做自适应加权：姿态偏离目标越多，精度奖励衰减越快，迫使策略在高难度姿态下付出更多探索成本。

知情重置：RL训练的"跳板"

这是整个方法中最有辨识度的设计。

标准的RL训练从悬停状态随机初始化，在SE(3)非凸约束空间中，随机探索几乎不可能碰到可行的穿越轨迹。

先用一个简化的动力学模型（quotient space-based trajectory optimization）离线生成一批满足SE(3)几何约束的全状态轨迹，然后在RL训练的每个episode开始时，以一定概率从这些规划轨迹上采样状态作为初始条件。相当于给RL一个"跳板"，把它从随机探索的泥潭里拉出来。

图 | 知情重置（IR）消融实验（单缝隙 / 多缝隙训练成功率与样本量对比）

消融实验的结果很直观：单矩形间隙任务中，无IR时1G样本量下成功率约70%，启IR后达到约96%，且所需样本量不到前者的1/3；三间隙连续轨道任务中，无IR条件下策略连第二个间隙的解都探索不到。

IR的另一个效果是，策略学到了进入窄缝前主动减速的"战斗习惯"。这恰好说明，好的初始化策略不仅仅是加速收敛，它在根本上重塑了RL的探索分布，把搜索方向从"能不能过"扭转为"怎么过得更好"。

Sim-to-Real：五层随机化兜底

Sim-to-real是RL上机的老难题，飞行器尤甚。文章部署了五层随机化：

扰动力：在仿真中对机体施加随机持续扰动力，模拟未建模空气动力学效应，强迫策略不过度依赖惯性测量；
飞行控制器响应模拟：用滑动平均+延迟参数拟合真实PX4飞控的指令响应特性；
响应随机化：在拟合参数上叠加随机缩放因子，模拟硬件差异和电压波动；
感知延迟模拟：精确建模从相机曝光到策略输出控制指令的端到端延迟；
掩膜观察随机化：对输入掩膜图像施加像素级噪声，模拟真实分割的不完美。

图 | (b)域随机化组件移除后的典型失败案例.(c)不同倾角下，各随机化组件对穿越成功率的影响

消融实验揭示了一个值得注意的现象：RL教师策略对移除单一随机化组件相对不敏感，但蒸馏后的学生策略对随机化设计高度敏感。尤其在60度和80度倾斜穿越中，移除扰动力或响应随机化后成功率显著下降。

这说明策略蒸馏在压缩信息的同时也放大了对输入分布的依赖性，随机化不只是"加噪声"，更是为学生策略提供足够覆盖真实域的训练分布。

03 几个值得拆开看的实验

文章的实验覆盖面很全，这里挑几个能说明方法边界的结果：

矩形缝隙穿越（核心指标）：20cm×60cm缝隙，短边余量仅5cm。滚转角≤60度时成功率约97%（29/30次），滚转角>60度时成功率约90%（27/30次）。俯仰穿越中，30度角100%成功，60度角降至73.3%。

90度滚转时，策略驱动角速度达到预设上限6 rad/s——这已经是飞机机械极限附近的动作了。

图 | 矩形窄缝穿越轨迹与控制指令响应（不同倾角姿态、指令曲线）

图 | 不同缝隙尺寸、倾角下各方法成功率对比

动态缝隙穿越：策略没有在动态缝隙上训练过，但实验中发现它能反应式地伺服跟踪移动缝隙——包括旋转扰动和上下平移。在仿真控制实验中，当缝隙以3m/s以上的极端速度平移时，无域随机化的策略会迅速丢失视觉目标，而完整策略能稳定跟踪。

图 | 动态缝隙穿越实验（实物飞行快照）

这是一个值得讨论的结果。文章将其归因于域随机化扩展了观察序列分布，但从行为层面看，策略实际上学到了一种"视觉伺服"的隐式能力——它不需要知道缝隙的显式运动状态，只需要维持缝隙图像在视野中的特定位置模式。这种能力的出现方式（意外涌现而非刻意设计）恰恰说明端到端学习可能捕捉到了模块化架构难以显式建模的控制原语。

连续多缝隙穿越：文章在包含2-3个连续缝隙（间距约0.8m）的轨道上做了验证，这是已有文献中首次用纯机载传感器实现的连续窄缝穿越。但需要诚实地说，sim-to-real差距在这里暴露得最明显——仿真中成功的轨道，在真实世界中的对应条件下并不总是能复现，这是当前端到端方法的共性瓶颈。

图 | 多组连续窄缝轨道的飞行轨迹、虚实轨迹对比与控制指令

多几何形状穿越：三角形、平行四边形、椭圆形、菱形、拱形——策略不需要修改就能适配不同形状的缝隙。穿越朝向分布呈现出几何直觉：三角形缝隙的穿越朝向高度一致（与最长边对齐），平行四边形则呈现多模态分布。这种自适应的出现方式比结果本身更有意思——策略实际上是在动作空间中隐式编码了不同几何形状的"可行穿越空间"，而没有显式的几何建模步骤。

图 | 多种几何形状缝隙穿越轨迹与姿态分布（实物 + 仿真）

04 放在行业坐标系里看

过去两年，无人机敏捷飞行领域正在经历一轮从"模型驱动"到"数据驱动"的范式迁移，但迁移的方式各有不同。

与苏黎世大学/ETH路线的对比：

以Davide Scaramuzza组为代表，UZH在无人机竞速和敏捷飞行上的积累深厚。他们的路线偏向于在模型预测控制（MPC）框架中嵌入学习组件——例如2025年Sun等人的"Learning Agile Gate Traversal via Analytical Optimal Policy Gradient"，用神经网络预测MPC的参考位姿和成本权重，保留了MPC作为在线求解器。

这种混合架构的可解释性更好、抗扰动恢复能力更强（该工作在1146 deg/s的扰动下0.85s恢复），但本质上仍然依赖显式的状态估计和轨迹优化模块。

图 | 基于可微模型预测控制与解析最优策略梯度的无人机敏捷穿越框架

高飞团队的方法走的是另一条路：完全去掉中间模块，把策略空间压缩到"像素→动作"的单一映射。

两条路线的取舍在于：混合架构牺牲了灵活性和场景泛化能力来换取可解释性和稳定性，纯端到端架构则相反。

与上海交大同时期工作的对比：

2026年4月，上海交大邹丹平团队发布了"Vision-Based End-to-End Learning for UAV Traversal of Irregular Gaps via Differentiable Simulation"，同样是端到端视觉穿越，但走的是可微仿真路线，且面向的是不规则形状的缝隙。

图 | 无人机缝隙穿越端到端学习系统框架（训练与部署流程）

从发表时间来看，两篇工作在相近时间段内从不同路径逼近了同一个问题，区别在于高飞团队的策略蒸馏框架在训练效率上有优势（知情重置大幅压缩了样本需求），而可微仿真路线在梯度信号的精细度上有优势。

与高飞团队自身前序工作的对比：

这是最能体现技术路线转向的一组对比。2025年4月那篇Science Robotics论文走的是"基于模型+轨迹优化"的路子，核心是时空联合优化规划器和偏航动态补偿，目标是让无人机执行连续特技飞行动作。那篇工作解决的是"已知动力学模型后，怎么规划出可行且漂亮的轨迹"——这是一个优化问题。

而这篇工作解决的是"不依赖模型、不依赖外部定位，怎么从原始感知直接生成能在极端约束下存活的动作"——这是一个学习问题。一年之内从优化跳到学习，从规划跳到策略，这种转向本身就说明：至少在这支团队看来，极端约束条件下的无人机控制，已经到了模型方法的天花板。

不可否认，纯端到端路线当下仍有明显短板：

视觉依赖掩膜图像、跨场景迁移不稳定、仿真与真机间存在落差。

但恰恰是这些局限，反衬出这篇工作的真正价值：它没有试图解决所有问题，而是在一个边界清晰、难度极高的任务上，完整走通了“知情重置→策略蒸馏→域随机化”的技术路线。

不依赖外部定位、不预设缝隙模型、不手工设计特征，却实现了窄缝穿越中迄今最高的成功率和最大的角度极限。策略自发涌现出视觉伺服、几何适配等行为，暗示端到端学习可能挖掘出超越人类直觉的控制原语。

与其说这是一份可部署的系统，不如说是一个可复用的方法论。对于无人机自主飞行、具身智能、极端环境机器人控制而言，这项研究指明了一条不同于传统模块化的路径。而路径的价值，往往比某个具体指标更重要。

Ref

论文链接：https://www.science.org/doi/10.1126/scirobotics.aeb018

Science 子刊｜浙大高飞团队：“盲穿”5cm窄缝，90度侧飞，刷新无人机窄缝穿越纪录！

01 为什么窄缝穿越至今还是个难

02 让策略直接"看见→动作"，跳过所有中间环节

策略蒸馏：把难题拆成两个子问题

知情重置：RL训练的"跳板"

Sim-to-Real：五层随机化兜底

03 几个值得拆开看的实验

04 放在行业坐标系里看

如何快速分析英雄联盟比赛回放：免费开源工具终极指南

Ptrade 量化入门：编写交易策略前，先把你的炒股经验转化为专属策略

MSL C库多线程安全配置与内存管理实战指南

5分钟终极指南：FF14国际服中文汉化工具FFXIVChnTextPatch完整使用教程

终极指南：如何用ta4j Java技术分析库构建量化交易策略

从寄存器到驱动：深入解析WPR1516 ADC双缓冲列表架构与实战