「理想先把地基打好了......」目录01 大家都在卷世界模型理想在干嘛02 这篇工作究竟解决了什么问题03 两阶段、两个核心蒸馏目标第一阶段训练一个知道自己在哪的几何教师第二阶段几何保真蒸馏重点在两个模块04 效率是最大的差异推理效率这才是核心指标3D 重建质量用更小的代价做到了差不多下游任务迁移几何表征的真正价值05 GeoX 在行业里处于什么位置06 现存的短板07 从产业落地看GeoX当自动驾驶圈都在扩参数、堆世界模型的时候理想汽车的这篇论文往反方向走了一步把一个十亿级别的大模型蒸馏成 1.55 亿参数、能在车载芯片上跑的小模型还能在 KITTI 上做到 220 FPS、显存仅占 1.75 GB。但这不只是一个压缩故事。它真正想论证的是密集 3D 几何重建不应该只是一个离线感知任务而可以成为端侧部署的基础几何表征。轨迹预测、占据预测、未来帧预测全部可以基于这套几何接着做还能跑在车上。图| Deployment Inference Speed01 大家都在卷世界模型理想在干嘛2025 年底到 2026 年上半年自动驾驶圈有个不太被点破的共识世界模型是下一个主战场。特斯拉的 FSD 体系在走端到端生成路线小米发布的 Auto World Model 把三维重建和视频生成做成了一体化架构华为、小鹏也各自有相关布局。图小米Joint World Model 框架理想自己今年 3 月也在 GTC 2026 上发布了 MindVLA-o1走的是原生多模态 具身智能的方向。今年CVPR 2026理想有12篇论文入选也说明理想在底层技术上的投入并非浅尝。GeoX 更像是在做地基工作在 MindVLA 等上层大模型之下先把几何感知可以高效部署这件事讲清楚、做实。02 这篇工作究竟解决了什么问题现有的视觉几何大模型VGGT、π3、OmniVGGT能从多视图图像里预测稠密点云、深度图、相机位姿精度很不错。但这些模型的参数量普遍在 10 亿左右跑一帧 Waymo 的 5 路摄像头需要 100ms 以上的延迟显存动辄 7–9 GB。这类模型的定位本质上是离线重建工具。换句话说它们可以用来处理历史数据但真要塞进车载计算平台做实时感知几乎是不现实的。图VGGT模型框架更麻烦的是直接对这类大模型做知识蒸馏并不简单。标准的蒸馏策略比如特征对齐、输出软标签对齐用来压缩语义分类任务通常够用但对密集几何来说有两个明显的短板所有区域一视同仁车辆边缘、远距离目标、结构稀疏的区域几何信息密度差异很大用统一的 L2 损失去学小模型会自然偏向简单区域牺牲掉几何敏感位置的精度。各视角独立优化环视摄像头有六七个视角彼此间重叠很少。如果每个视角的特征单独对齐丢失的恰好是不同视角之间的空间关系而这种关系对构建一致的自车坐标系至关重要。LiAuto-GeoX 的核心贡献就在于针对这两个缺陷分别设计了针对性的蒸馏目标让大模型的几何能力真正传进小模型而不是被模糊地稀释掉。图LiAuto-GeoX总览03 两阶段、两个核心蒸馏目标第一阶段训练一个知道自己在哪的几何教师教师模型的架构沿用了 VGGT 风格的大规模视觉几何 Transformer24 层编码器 24 层解码器特征维度 1024。关键设计是把标定好的相机外参作为显式输入。这不是可选项而是让模型从一开始就知道自己在车辆坐标系里的位置——哪个摄像头朝前、哪个朝侧后——从而输出具有度量尺度的几何而不是相对深度。稀疏 LiDAR 点云在训练时作为辅助的几何锚点使用仅训练阶段推理时不需要专门用来提升远距离、弱纹理区域的深度监督密度。这个设计很有意思LiDAR 是稀疏的但教师模型输出的是稠密预测相当于用稀疏真实值打底让教师先学会远距离到底该怎么预测。图LiAuto-GeoX的整体流程第二阶段几何保真蒸馏重点在两个模块学生模型设计得相当克制DINOv2-Small 作为编码器12 层解码器特征维度压缩到 384总参数量155M。教师冻结后学生从两个角度接受约束1. 掩码引导深度感知蒸馏Mask-Guided Depth-Aware Distillation核心思路让教师指出几何信息丰富的 token然后让这些 token 的响应条件化学生的特征形成。具体做法是从冻结教师的解码层提取 token 级激活分数将激活值超过均值的位置标记为高几何响应区域二值掩码 M同时把教师预测的深度图下采样到 token 分辨率与掩码拼接后输入一个轻量的深度掩码适配器Depth-Mask Adapter生成条件偏置 token B图掩码引导的深度感知蒸馏用公式简单写就是这里是 token 级门控只有高激活位置的学生 token 会被推一把让它把更多表征容量用在几何敏感区域。关键是推理时这个适配器不存在训练完之后就扔掉了部署的学生模型里没有任何额外开销。2. 相对位姿关系蒸馏Relative-Pose Relational Distillation直接对每个视角的相机位姿 token 做特征对齐有个本质缺陷——它告诉学生每个视角应该长什么样但没有告诉学生这些视角之间的空间关系应该是什么。图相对位姿关系蒸馏RPR 的做法是把教师和学生各个视角的相机条件 token 归一化到单位超球面然后计算所有视角对之间的余弦相似度矩阵N×N 关系矩阵让学生的跨视角关系矩阵匹配教师的这里是梯度截断只对学生侧更新。这相当于把相机之间的几何关系作为一种监督信号传递下去而不是直接回归绝对位姿——后者在环视场景里往往因为视角重叠稀少而难以稳定监督。两个蒸馏目标是互补的遮罩蒸馏管局部边界、远距离的深度精度关系蒸馏管全局跨视角的空间一致性。消融实验里去掉任何一个效果都会明显下降。04 效率是最大的差异推理效率这才是核心指标图不同模型推理效率对比表这组数字的差距不是小打小闹。同等条件下GeoX 的延迟是 VGGT 的约一半显存只有它的 23%。放到 KITTI 单目序列上能跑到223.8 FPS是 π3 的两倍。需要说明的是这些速度测试都在 A100 上做的不是真实车载芯片Orin、MDC 等的数字。从 A100 到车端 SoC 还有很大的工程鸿沟不能直接等价。3D 重建质量用更小的代价做到了差不多图深度估计定量结果表含 KITTI FPS 指标在 DDAD 数据集上GeoX 用 1/6 不到的参数量做到了所有方法里最好的重建精度包括比它大很多的 π3。在其他数据集上虽然有些指标没有达到最优但整体上与十亿参数级别的模型保持了可竞争的水准。但要注意所有重建评估都需要先做 Umeyama 尺度对齐这一步本身会校正掉部分绝对几何误差。真实部署场景下尺度漂移的问题依然存在。下游任务迁移几何表征的真正价值图NAVSIM 闭环规划轨迹预测结果表图Occ3D-nuScenes 4D 占据预测结果表这组数字背后有一个重要设定下游评估时骨干参数严格冻结只训了一个轻量规划解码器。这意味着什么意味着这些增益来自几何表征本身的质量而不是靠下游微调补课出来的。这恰恰是这篇论文最想证明的事高质量、可迁移的几何表征可以在不调整骨干的情况下帮助多个下游任务。05 GeoX 在行业里处于什么位置坦白说GeoX 不是在跟世界模型比而是在跟另一类问题竞争“通用视觉几何大模型能不能上车”。图环视重建定性对比图直道、城市弯道场景VGGT、π3、OmniVGGT 这类模型的出发点是通用场景重建它们在 KITTI 单目深度上表现突出但在 nuScenes、Lyft 这种多摄像头环视场景里表现明显下滑原因是通用预训练对自车坐标系的驾驶专属结构不够敏感。DVGT 是最近最接近 GeoX 方向的工作CVPR 2026清华/北大/小米合作专门针对驾驶场景设计了视觉几何 Transformer重建精度不错但参数量打到了 1.73B延迟更高。DVGT 可以理解为驾驶特化版 VGGTGeoX 则是驾驶特化版 可部署版。图DVGT-1FastVGGT、LiteVGGT 是在做 VGGT 的推理加速思路是对原始架构剪枝或量化但没有专门针对驾驶场景做几何特化所以虽然参数量相近但多摄像头场景下的跨视角一致性明显弱于 GeoX。如果非要在行业里给 GeoX 定位它做的事情更接近驾驶几何感知的工程化落地方法论而不是一个新的感知范式。它的价值不在于某一个指标刷出了多高而在于提供了一套从大模型知识到小模型部署的几何感知迁移框架。06 现存的短板1. 220 FPS 是在 KITTI 上的数字不代表车载实际情况KITTI 是 2 路摄像头的单目序列和 Waymo 5 路、OpenScene 8 路相比帧结构差异很大。真正在 Orin/BPU/MDC 上的推理速度需要专门测试。2. LiDAR 辅助的泛化性问题教师训练时用了稀疏 LiDAR 做几何锚点。这在有 LiDAR 的训练场景下很有效但对于学生在仅有摄像头输入的新场景下泛化是否依然可靠论文里的评估相对有限。从 Table 2 的跨数据集数字看Waymo 上的精度与最强基线还有差距说明迁移能力仍有提升空间。3. 下游任务的优势很微弱轨迹预测 PDMS 从 90.3 提升到 90.64D 占据预测平均 mIoU 从 24.13% 到 24.63%。这些提升虽然存在但幅度很小很难排除数据集分割、训练随机性等因素的影响。更大规模的验证或许更有说服力。07 从产业落地看GeoX从产业应用视角看这篇工作有几点值得关注第一提供了一个可操作的大模型→端侧模型几何迁移范式。现在行业里对上车的路径一直有争议GeoX 的蒸馏框架给出了一套具体方案而不只是定性描述。第二几何表征作为下游任务通用基础的思路是对的。这跟语言模型领域用预训练表征做迁移学习的逻辑是一脉相承的只不过迁移的是几何而不是语义。理想在 MindVLA 和 GeoX 之间的关系可以理解为上层理解模型和底层几何感知的一种分层设计。第三对相机标定信息的显式利用是工程上比较成熟的思路理想把它系统化到了教师训练里让驾驶特化的几何先验真正进入了模型。总体来看LiAuto-GeoX 不是一篇意图颠覆现有范式的论文而是在做一件扎实但容易被忽视的事让几何感知跑得足够快、足够准、能真正上车。这件事的难度并不比提出一个新的大模型架构低。Ref论文标题LiAuto-GeoX: Efficient Grounded Driving Transformer论文地址https://arxiv.org/abs/2606.05774项目主页https://ljwwwiop.github.io/GeoX/