LingBot-Map开源实时3D重建基础模型发布支持10000帧流式重建20FPS运行SEO关键词LingBot-Map、3D重建、三维重建、Streaming 3D Reconstruction、Geometric Context Transformer、视觉SLAM、AI三维重建、机器人视觉、PyTorch文章摘要Robbyant 团队正式开源 LingBot-Map这是一个面向流式三维重建Streaming 3D Reconstruction的基础模型。相比传统需要不断优化迭代的SLAM方案LingBot-Map采用前馈式架构实现约20FPS实时推理并支持10000帧以上长序列重建。本文带大家了解其核心特点、安装方法以及快速体验流程。一、LingBot-Map 是什么近年来大模型已经覆盖文本、图片、视频等多个领域而**3D Foundation Model三维基础模型**也开始成为机器人、自动驾驶、AR/VR的重要研究方向。GitHub 最新开源的LingBot-Map就是一款面向流式三维重建的基础模型。项目地址https://github.com/Robbyant/lingbot-map论文Geometric Context Transformer for Streaming 3D Reconstruction官方介绍中最大的特点就是不需要复杂的后端优化采用 Feed-forward 前馈推理可以实时完成场景重建长视频依然保持稳定简单来说就是输入连续的视频或者图片序列就可以不断构建完整的三维场景。二、有哪些亮点相比传统 SLAM 或 SfM 算法LingBot-Map 有几个比较大的优势。1、真正的流式重建传统三维重建很多都是输入全部图片 → 开始计算 → 等待结果而 LingBot-Map 更像视频直播一样视频不断输入 ↓ 模型持续推理 ↓ 点云不断更新真正做到 Streaming Reconstruction。2、支持超长序列官方表示支持超过10000 Frame的长序列推理。对于机器人巡检、无人车、长距离拍摄来说非常重要。官方甚至展示了25000 帧13 分钟视频依然能够完成稳定重建。3、速度非常快官方测试约 20 FPS分辨率518 × 378对于需要实时建图的应用已经非常不错。4、Geometric Context Transformer这是论文最大的创新。主要包括三个部分Anchor ContextPose Reference WindowTrajectory Memory它们共同解决坐标对齐长距离漂移连续轨迹稳定性因此相比普通 Transformer更适合长时间连续建图。5、支持 FlashInfer项目推荐使用FlashInfer优势包括更高推理速度更低显存占用Paged KV Cache长序列效率更高如果没有安装也可以退回 PyTorch SDPA。三、模型下载官方提供多个版本。模型用途lingbot-map-long推荐适合长序列lingbot-map综合版本lingbot-map-stage1训练阶段模型目前支持HuggingFaceModelScope魔搭下载即可直接使用。四、安装教程官方推荐PythonPython 3.10创建环境conda create-nlingbot-mappython3.10-yconda activate lingbot-map安装 PyTorchpipinstalltorch2.8.0torchvision0.23.0安装项目pipinstall-e.推荐安装 FlashInferpipinstallflashinfer-python如果需要可视化pipinstall-e.[vis]五、快速运行官方 Demo 十分简单。例如python demo.py\--model_pathlingbot-map-long.pt\--image_folderexample/courthouse\--mask_sky运行后即可打开http://localhost:8080浏览器中即可查看相机轨迹点云重建结果无需安装复杂的软件。六、支持哪些场景官方提供多个 Demo✅ Courthouse✅ University✅ Oxford✅ Loop Closure除此之外还支持室内建图城市道路无人车航拍长视频World Model 视频覆盖范围非常广。七、长视频如何处理普通 Transformer 最大问题就是KV Cache 越来越大LingBot-Map 提供了Keyframe Interval例如--keyframe_interval2只缓存关键帧。普通帧仍然预测但不会无限增长缓存。因此显存更低推理更稳定更适合长视频对于超过 3000 帧的视频还可以开启--modewindowed采用滑动窗口推理。八、支持天空分割室外场景最大的噪声就是SkyLingBot-Map 内置Sky Mask首次运行会自动下载 ONNX 模型。随后即可天空自动过滤得到更加干净的点云。九、离线渲染如果视频特别长例如25000 Frame十几分钟视频官方提供demo_render能够自动推理自动生成点云视频自动保存配置自动输出 MP4十分适合批量生成演示视频。十、项目优势总结综合来看LingBot-Map 有几个比较明显的优势✅ 前馈式推理无需复杂优化✅ 支持 10000 帧超长序列✅ 推理速度约 20FPS✅ FlashInfer 加速✅ Sky Mask 天空过滤✅ 浏览器实时可视化✅ 支持离线批量渲染✅ Apache 2.0 开源协议可用于学习与二次开发对于机器人视觉、自动驾驶、AR/VR、数字孪生等方向的开发者来说都具有较高的参考价值。十一、总结过去几年三维重建更多依赖传统 SLAM、SfM 或 NeRF 等技术而随着基础模型的发展Feed-forward Streaming Reconstruction正逐渐成为新的研究方向。LingBot-Map 通过Geometric Context Transformer、长序列 KV Cache 优化以及 FlashInfer 加速在实时三维重建方面展示了不错的性能。对于关注机器人、自动驾驶、空间智能Spatial Intelligence以及 Embodied AI 的开发者来说这是一个值得体验和学习的开源项目。如果你对三维视觉、AI 建图或机器人开发感兴趣不妨下载源码运行官方 Demo体验实时三维重建带来的效果。项目地址GitHubhttps://github.com/Robbyant/lingbot-map论文https://arxiv.org/abs/2604.14141