每日开源 080LingBot-Map前馈式 3D 基础模型让普通摄像头实时流式重建三维世界2026-07-01 · 早间篇 · GitHub Trending 今日 189 Stars**免责声明**本工具依赖境外公开数据源GitHub、HuggingFace、arXiv 等部分平台在中国大陆需合规网络环境。如果你做过 SLAM、三维重建或者机器人导航一定体会过“离线建图”和“实时流式重建”之间的鸿沟前者精度高但无法边跑边用后者能实时跑却容易漂移、丢尺度。今天介绍的项目LingBot-Map直接把这个问题变成了“几何上下文注意力”的工程问题——一个前馈式 3D 基础模型用普通 RGB 摄像头做输入在视频流里逐帧输出相机位姿和稠密点云20 FPS 跑完一万帧。一、项目速览**项目名**LingBot-Map**团队**Robbyant灵波团队**定位**面向流式数据的前馈式 3D 基础模型**Stars**8.9k今日 GitHub Trending 189 Stars**语言**Python**许可证**Apache-2.0**论文**arXiv:2604.14141**代码**github.com/Robbyant/lingbot-map**主页**technology.robbyant.com/lingbot-map20FPS 流式推理**10k**帧长序列支持518×378 输入分辨率80×上下文增长降低二、它能解决什么问题流式三维重建Streaming 3D Reconstruction的目标是在视频流中持续恢复相机位姿和场景点云。它要求系统同时满足三点几何精度单目输入存在尺度歧义必须保持全局一致的坐标系和尺度。时间一致性连续帧之间的位姿和深度不能 flicker否则点云会“抖”。计算效率不能随着帧数增加无限吃内存和算力。传统做法要么离线跑 COLMAP、SfM要么在线跑 SLAM、Bundle Adjustment。前者需要完整数据后者依赖迭代优化实时性天花板明显。LingBot-Map 的思路是把 SLAM 里“定位、局部匹配、全局漂移修正”的直觉蒸馏成一个端到端的几何上下文 Transformer纯前向推理不用迭代优化。三、核心亮点1. 几何上下文注意力GCA——三种记忆各司其职GCA 把流式状态拆成三块互补的注意力上下文锚点上下文Anchor Context用前 n 帧建立全局坐标系和绝对尺度解决单目尺度歧义。位姿参考窗口Pose-Reference Window维护最近 k 帧的完整图像 token提供密集的局部几何约束。轨迹记忆Trajectory Memory把历史帧压缩成每帧 6 个上下文 token配合 Video RoPE 保持时序抑制长程漂移。相比因果注意力每帧增加约 M6 个 tokenGCA 每帧只增加 6 个 token上下文增长率降低约 80 倍。2. 分页 KV 缓存 FlashInfer —— 长序列的物理基础LingBot-Map 使用分页 KV 缓存布局避免频繁更新缓存的内存碎片。FlashInfer 实现下518×378 分辨率、64 帧局部窗口的 1000 帧序列能达到约 20 FPS如果用 PyTorch 连续 KV 缓存速度会掉到 10.5 FPS 左右。3. 训练分两阶段从短序列到长视频第一阶段用 29 个数据集的短序列预训练基础模型约 21,500 GPU 小时第二阶段把全局注意力换成 GCA用“回折视频采样器”继续训练长轨迹约 15,360 GPU 小时。渐进式课程让模型先学会可靠局部几何再学会全局一致性。4. 基准测试——流式方法里跑出离线精度在 Oxford Spires 稀疏设置320 帧上LingBot-Map 的 ATE 只有 6.42 米比此前最佳流式方法 CUT3R18.16 米提升约 2.8 倍甚至超过离线方法 DA312.87 米和优化方法 VIPE10.52 米。当序列从 320 帧扩展到 3840 帧时LingBot-Map 的 ATE 仅增加 0.69 米而 CUT3R 增加了 14.31 米。三维重建质量上ETH3D 的 F1 达到 98.98比第二名 Wint3R 高出 21.70 点7-Scenes 和 NRGBD 的 F1 分别为 80.39 和 64.26同样领先。四、实战场景展示LingBot-Map 的输入可以是一个普通 USB 摄像头、无人机云台相机或者车载前视摄像头。输出则是实时相机轨迹和稠密点云能直接对接下游应用。**机器人导航**扫地机器人、仓储 AGV 在未知环境中实时建图并避障。**自动驾驶感知**低算力平台做视觉里程计补充高精地图缺失区域。**AR/VR 空间锚定**手机或眼镜端实时重建房间结构用于虚拟物体持久化。**数字孪生巡检**工厂或楼宇内部长走廊漫游生成可量测的点云资产。**无人机测绘**对室外大场景进行流式重建替代部分传统摄影测量流程。五、上手指南下面这套流程来自官方 README 和社区实测适合消费级 GPU。核心依赖CUDA 12.8、PyTorch 2.8、可选 FlashInfer 加速。1. 环境准备# 创建 conda 环境conda create-nlingbot-mappython3.10-yconda activate lingbot-map# 安装 PyTorchCUDA 12.8pipinstalltorch2.8.0torchvision0.23.0 --index-url https://download.pytorch.org/whl/cu128# 安装项目pipinstall-e.# 可视化依赖可选pipinstall-e.[vis]2. 安装 FlashInfer推荐pipinstall--index-url https://pypi.org/simple flashinfer-python# 想加速首次编译可额外安装缓存包pipinstallflashinfer-jit-cache-fhttps://flashinfer.ai/whl/cu128/flashinfer-jit-cache/如果显存较小或不想折腾 FlashInfer加--use_sdpa会回退到 PyTorch 原生 SDPA 注意力。3. 下载模型权重官方提供三个版本可从 HuggingFace 或 ModelScope 下载lingbot-map-long长序列/大场景首选推荐。lingbot-map长短序列平衡版。lingbot-map-stage1第一阶段检查点可加载到 VGGT 做双向推理。4. 运行交互式 Demopython demo.py\--model_path/path/to/lingbot-map-long.pt\--image_folderexample/courthouse\--mask_sky命令启动后浏览器打开http://localhost:8080即可看到 viser 交互式点云。项目内置了 courthouse、university、loop、oxford 四个示例场景。5. 流式视频推理python demo.py\\--video_pathvideo.mp4\\--fps10\\--model_path/path/to/lingbot-map-long.pt\\--offload_to_cpu\\--num_scale_frames2\\--keyframe_interval5长序列3000 帧建议用窗口模式--mode windowed --window_size 128 --overlap_keyframes 16 --keyframe_interval 2。6. 超长视频离线渲染对于 25,000 帧级别的室内漫游官方提供demo_render/batch_demo.py支持自定义虚拟相机路径和多种镜头模式follow、birdeye、static、pivot。需要先安装渲染依赖pipinstall-e.[vis,render]pipinstallonnxruntime-gpu pipinstall--index-url https://pypi.org/simple kaolin-fhttps://nvidia-kaolin.s3.us-east-2.amazonaws.com/torch-2.8.0_cu128.htmlsudoaptinstallffmpegcddemo_render/render_cuda_extpython setup.py build_ext--inplacecd../..7. 常见问题QCUDA Out of Memory 怎么办降分辨率、加--offload_to_cpu、把--num_scale_frames从 8 降到 2或者增大--keyframe_interval。Q天空点云太多加--mask_sky安装 onnxruntime 后模型会自动下载 skyseg.onnx 并缓存到image_folder_sky_masks/。Q重建结果闪烁确认已启用时序融合模块长序列用 windowed 模式并保留足够的 overlap keyframes。六、今日总结与互动LingBot-Map 把 SLAM 的几何直觉和 Transformer 的表征能力拧在了一起做了一个非常“工程化”的取舍锚点定尺度、局部窗口保精度、轨迹记忆压漂移。它不是靠更大的模型堆料而是靠结构化的上下文设计把流式状态的复杂度压到接近常数。这才是长序列实时 3D 重建真正需要的工程底座。如果你想快速验证建议从example/courthouse的交互式 Demo 开始如果你有自己采集的视频可以先用窗口模式跑一遍观察 ATE 和点云质量。欢迎在评论区分享你的测试结果或者聊聊你遇到的显存优化技巧。每日开源 · 080 期关注本栏目每天早八点一起深读一个前沿开源项目。本期项目LingBot-Map