Science 子刊|浙大高飞团队:“盲穿”5cm窄缝,90度侧飞,刷新无人机窄缝穿越纪录!
「端到端策略无限逼近机械极限」目录01 为什么窄缝穿越至今还是个难02 让策略直接看见→动作跳过所有中间环节策略蒸馏把难题拆成两个子问题知情重置RL训练的跳板Sim-to-Real五层随机化兜底03 几个值得拆开看的实验04 放在行业坐标系里看窄缝穿越是无人机机动性测试的标尺题。看上去简单实际包含了感知、决策、控制的全部难点。过去近十年这个方向的主流做法一直沿着模块化架构走先用视觉提取缝隙特征再做状态估计然后轨迹规划最后跟踪控制。每个环节都得精细调参换个场景往往重来一遍。6月11日浙江大学高飞团队在《Science Robotics》上发表了题为Precise aggressive aerial maneuvers with sensorimotor policies的研究。论文共同第一作者为浙大控制科学与工程学院巫天越、浙大湖州研究院徐广通通讯作者为高飞。这是高飞团队继2025年4月在Science Robotics发表无人机自主特技飞行工作后在该顶刊上的第二篇论文。两次登刊技术路线却截然不同。上一次走的是基于模型的轨迹优化路线这一次转向了纯数据驱动的感觉运动学习。核心思路很直接把感知到控制的整条链路压缩进一个端到端的感觉运动策略里。策略直接从机载视觉和本体感知映射为底层控制指令不经过状态估计、不经过轨迹规划、不经过人工特征提取。它能驱动一台38cm轴距的四旋翼在仅5cm间隙余量、最高90度倾斜的矩形缝隙中自主穿越全过程不依赖外部定位也不依赖对缝隙位姿的先验知识。图 | 工作原理、硬件平台与四大核心功能展示01 为什么窄缝穿越至今还是个难这项任务难点并非飞行速度而是严苛的物理约束。四旋翼大倾角穿越时机体碰撞边界形成强非凸约束容错空间极小。以实验所用20cm×60cm缝隙为例机身高10cm两侧仅各留5cm余量姿态、位置稍有偏差便会发生碰撞。图 | UZH团队四旋翼飞行器穿越一条狭窄且倾斜45°的间隙时的连续过程过往研究存在明显短板2017年UZH团队实现纯机载传感穿越但依赖预设轨迹与模块化链路无法实时感知、重规划后续研究将倾角提升至45°、间隙缩小至8cm依旧局限于人工特征与规则化规划。模块化架构普遍存在信息损耗与级联误差视觉、估测环节的偏差会逐级放大算法难以适配光照、外形不同的新场景。02 让策略直接看见→动作跳过所有中间环节文章的方法论沿用了策略蒸馏policy distillation的经典框架但关键在于两点工程创新一是用知情重置Informed Reset, IR解决了RL在SE(3)约束空间中的探索难题二是设计了一套完备的sim-to-real迁移方案。策略蒸馏把难题拆成两个子问题整个训练流程分两步走图 | 网络结构细节RL 网络与蒸馏部署网络架构第一步教师阶段 在仿真中用强化学习训练一个教师策略但给它的是低维特权信息——缝隙边缘上采样的32个3D点坐标替代原始图像、本体姿态角、机体线速度等。这一步避开了从高维像素输入直接学RL的样本效率噩梦。RL使用PPO算法奖励函数的设计覆盖了穿越精度、姿态平滑、速度约束等多个维度。第二步学生阶段 用监督学习训练一个学生策略输入还原为真实的机载感知——320×256的掩膜缝隙图像本体姿态角输出4维控制指令集体推力三轴角速度1维穿越完成检测信号。训练算法用DAgger的在线变体只采用当前策略采集的样本抑制离线学习的协变量偏移。学生策略的网络骨架是一个轻量CNN编码器接单层GRU再过一个前馈MLP输出动作——整体足够轻量可以在Jetson Orin NX上实时运行。图 | 策略训练框架强化学习 策略蒸馏双阶段流程这个设计本质上是让奖励信号对不同姿态下的穿越精度做自适应加权姿态偏离目标越多精度奖励衰减越快迫使策略在高难度姿态下付出更多探索成本。知情重置RL训练的跳板这是整个方法中最有辨识度的设计。标准的RL训练从悬停状态随机初始化在SE(3)非凸约束空间中随机探索几乎不可能碰到可行的穿越轨迹。先用一个简化的动力学模型quotient space-based trajectory optimization离线生成一批满足SE(3)几何约束的全状态轨迹然后在RL训练的每个episode开始时以一定概率从这些规划轨迹上采样状态作为初始条件。相当于给RL一个跳板把它从随机探索的泥潭里拉出来。图 | 知情重置IR消融实验单缝隙 / 多缝隙训练成功率与样本量对比消融实验的结果很直观单矩形间隙任务中无IR时1G样本量下成功率约70%启IR后达到约96%且所需样本量不到前者的1/3三间隙连续轨道任务中无IR条件下策略连第二个间隙的解都探索不到。IR的另一个效果是策略学到了进入窄缝前主动减速的战斗习惯。这恰好说明好的初始化策略不仅仅是加速收敛它在根本上重塑了RL的探索分布把搜索方向从能不能过扭转为怎么过得更好。Sim-to-Real五层随机化兜底Sim-to-real是RL上机的老难题飞行器尤甚。文章部署了五层随机化扰动力在仿真中对机体施加随机持续扰动力模拟未建模空气动力学效应强迫策略不过度依赖惯性测量飞行控制器响应模拟用滑动平均延迟参数拟合真实PX4飞控的指令响应特性响应随机化在拟合参数上叠加随机缩放因子模拟硬件差异和电压波动感知延迟模拟精确建模从相机曝光到策略输出控制指令的端到端延迟掩膜观察随机化对输入掩膜图像施加像素级噪声模拟真实分割的不完美。图 | (b)域随机化组件移除后的典型失败案例.(c)不同倾角下各随机化组件对穿越成功率的影响消融实验揭示了一个值得注意的现象RL教师策略对移除单一随机化组件相对不敏感但蒸馏后的学生策略对随机化设计高度敏感。尤其在60度和80度倾斜穿越中移除扰动力或响应随机化后成功率显著下降。这说明策略蒸馏在压缩信息的同时也放大了对输入分布的依赖性随机化不只是加噪声更是为学生策略提供足够覆盖真实域的训练分布。03 几个值得拆开看的实验文章的实验覆盖面很全这里挑几个能说明方法边界的结果矩形缝隙穿越核心指标20cm×60cm缝隙短边余量仅5cm。滚转角≤60度时成功率约97%29/30次滚转角60度时成功率约90%27/30次。俯仰穿越中30度角100%成功60度角降至73.3%。90度滚转时策略驱动角速度达到预设上限6 rad/s——这已经是飞机机械极限附近的动作了。图 | 矩形窄缝穿越轨迹与控制指令响应不同倾角姿态、指令曲线图 | 不同缝隙尺寸、倾角下各方法成功率对比动态缝隙穿越策略没有在动态缝隙上训练过但实验中发现它能反应式地伺服跟踪移动缝隙——包括旋转扰动和上下平移。在仿真控制实验中当缝隙以3m/s以上的极端速度平移时无域随机化的策略会迅速丢失视觉目标而完整策略能稳定跟踪。图 | 动态缝隙穿越实验实物飞行快照 这是一个值得讨论的结果。文章将其归因于域随机化扩展了观察序列分布但从行为层面看策略实际上学到了一种视觉伺服的隐式能力——它不需要知道缝隙的显式运动状态只需要维持缝隙图像在视野中的特定位置模式。这种能力的出现方式意外涌现而非刻意设计恰恰说明端到端学习可能捕捉到了模块化架构难以显式建模的控制原语。连续多缝隙穿越文章在包含2-3个连续缝隙间距约0.8m的轨道上做了验证这是已有文献中首次用纯机载传感器实现的连续窄缝穿越。但需要诚实地说sim-to-real差距在这里暴露得最明显——仿真中成功的轨道在真实世界中的对应条件下并不总是能复现这是当前端到端方法的共性瓶颈。图 | 多组连续窄缝轨道的飞行轨迹、虚实轨迹对比与控制指令多几何形状穿越三角形、平行四边形、椭圆形、菱形、拱形——策略不需要修改就能适配不同形状的缝隙。穿越朝向分布呈现出几何直觉三角形缝隙的穿越朝向高度一致与最长边对齐平行四边形则呈现多模态分布。这种自适应的出现方式比结果本身更有意思——策略实际上是在动作空间中隐式编码了不同几何形状的可行穿越空间而没有显式的几何建模步骤。图 | 多种几何形状缝隙穿越轨迹与姿态分布实物 仿真04 放在行业坐标系里看过去两年无人机敏捷飞行领域正在经历一轮从模型驱动到数据驱动的范式迁移但迁移的方式各有不同。与苏黎世大学/ETH路线的对比以Davide Scaramuzza组为代表UZH在无人机竞速和敏捷飞行上的积累深厚。他们的路线偏向于在模型预测控制MPC框架中嵌入学习组件——例如2025年Sun等人的Learning Agile Gate Traversal via Analytical Optimal Policy Gradient用神经网络预测MPC的参考位姿和成本权重保留了MPC作为在线求解器。这种混合架构的可解释性更好、抗扰动恢复能力更强该工作在1146 deg/s的扰动下0.85s恢复但本质上仍然依赖显式的状态估计和轨迹优化模块。图 | 基于可微模型预测控制与解析最优策略梯度的无人机敏捷穿越框架高飞团队的方法走的是另一条路完全去掉中间模块把策略空间压缩到像素→动作的单一映射。两条路线的取舍在于混合架构牺牲了灵活性和场景泛化能力来换取可解释性和稳定性纯端到端架构则相反。与上海交大同时期工作的对比2026年4月上海交大邹丹平团队发布了Vision-Based End-to-End Learning for UAV Traversal of Irregular Gaps via Differentiable Simulation同样是端到端视觉穿越但走的是可微仿真路线且面向的是不规则形状的缝隙。图 | 无人机缝隙穿越端到端学习系统框架训练与部署流程从发表时间来看两篇工作在相近时间段内从不同路径逼近了同一个问题区别在于高飞团队的策略蒸馏框架在训练效率上有优势知情重置大幅压缩了样本需求而可微仿真路线在梯度信号的精细度上有优势。与高飞团队自身前序工作的对比这是最能体现技术路线转向的一组对比。2025年4月那篇Science Robotics论文走的是基于模型轨迹优化的路子核心是时空联合优化规划器和偏航动态补偿目标是让无人机执行连续特技飞行动作。那篇工作解决的是已知动力学模型后怎么规划出可行且漂亮的轨迹——这是一个优化问题。而这篇工作解决的是不依赖模型、不依赖外部定位怎么从原始感知直接生成能在极端约束下存活的动作——这是一个学习问题。一年之内从优化跳到学习从规划跳到策略这种转向本身就说明至少在这支团队看来极端约束条件下的无人机控制已经到了模型方法的天花板。不可否认纯端到端路线当下仍有明显短板视觉依赖掩膜图像、跨场景迁移不稳定、仿真与真机间存在落差。但恰恰是这些局限反衬出这篇工作的真正价值它没有试图解决所有问题而是在一个边界清晰、难度极高的任务上完整走通了“知情重置→策略蒸馏→域随机化”的技术路线。不依赖外部定位、不预设缝隙模型、不手工设计特征却实现了窄缝穿越中迄今最高的成功率和最大的角度极限。策略自发涌现出视觉伺服、几何适配等行为暗示端到端学习可能挖掘出超越人类直觉的控制原语。与其说这是一份可部署的系统不如说是一个可复用的方法论。对于无人机自主飞行、具身智能、极端环境机器人控制而言这项研究指明了一条不同于传统模块化的路径。而路径的价值往往比某个具体指标更重要。Ref论文链接https://www.science.org/doi/10.1126/scirobotics.aeb018