CVPR 2025自动驾驶研讨会:端到端、大模型与BEV感知的技术风向
1. 项目概述一场自动驾驶领域的年度技术盛宴如果你关注自动驾驶技术的前沿动态那么CVPR计算机视觉与模式识别国际会议这个名字一定不陌生。作为计算机视觉领域的顶级会议它每年都会吸引全球顶尖的研究者和工程师。而其中的“自动驾驶研讨会”Workshop on Autonomous Driving, WAD更是这个领域技术风向的集中展示地。2025年的这场全天研讨会选址在纳什维尔的音乐城中心已经是这个系列活动的第八个年头。它早已不是简单的学术交流而是一个融合了最新研究论文、工业界实战分享、以及硬核技术挑战赛的综合性平台。对于从业者来说无论是想了解学界的最新思想还是想把握工业界落地的脉搏这个研讨会的内容都极具参考价值。它覆盖了从感知、预测、规划到仿真的全栈技术链条今年的主题更是鲜明地指向了“规模化”和“大模型”这两个关键趋势。简单来说这就是一份自动驾驶技术圈的“年度体检报告”和“未来趋势白皮书”无论你是算法工程师、产品经理还是对这个领域充满好奇的学生都能从中挖到宝藏。2. 核心议题深度解析从技术演进到商业落地今年的WAD议程安排得满满当当从上午九点持续到下午五点内容编排清晰地反映了当前自动驾驶领域的热点与挑战。我们可以将其核心议题归纳为几个相互关联的维度。2.1 技术范式演进端到端驾驶与大模型浪潮研讨会的开场主题演讲就定下了基调。香港大学的李宏扬教授探讨了“端到端自动驾驶的过去、现在与未来”。这背后反映的是一个根本性的思路转变。传统的自动驾驶系统是高度模块化的像一条流水线感知模块识别出车辆、行人、车道线预测模块猜测这些交通参与者接下来几秒会怎么动规划模块再基于这些信息计算出一条安全舒适的轨迹。这种架构清晰但模块间的误差会累积且难以处理长尾的复杂场景。端到端驾驶则试图用一个庞大的神经网络直接从传感器输入如图像、激光雷达点云映射到控制输出如方向盘转角、油门刹车。这就好比不是让机器人先看、再想、最后动而是训练它形成一种“条件反射”或“直觉”。今年Waymo Open Dataset挑战赛中专门设立了“基于视觉的端到端驾驶”赛道并且有像“UniPlan”、“DiffusionLTF”这样的优秀方案脱颖而出说明这条技术路线已经从纯学术探索进入了大规模数据验证和工程化竞赛的阶段。然而端到端模型的可解释性差、安全验证难依然是其走向大规模部署必须跨越的鸿沟。紧接着端到端另一个无法忽视的浪潮就是“大模型”。小鹏汽车的刘祥明博士分享了“通过大型基础模型扩展自动驾驶”。这里的“大模型”已不再局限于自然语言处理中的LLM而是泛指参数量巨大、经过海量多模态数据预训练的模型。它们在自动驾驶中的应用场景非常广泛利用视觉-语言模型VLM理解复杂的交通场景描述如“那个试图在双黄线掉头的三轮车”用大语言模型LLM进行常识推理和决策比如理解“礼让行人”不仅仅是一个交通规则更是一种社会行为规范甚至用扩散模型Diffusion Model来生成更合理、更多样的未来交通流预测。NVIDIA的Laura Leal-Taixé博士关于“为3D数据重新设计生成模型”的演讲也与此紧密相关如何利用生成式AI创造逼真的仿真数据是降低自动驾驶系统测试成本的关键。2.2 规模化部署的现实挑战数据、仿真与长尾问题当技术走出实验室迈向真实世界的规模化部署时一系列工程和商业挑战便浮出水面。Waymo的陈武博士的演讲“解决大规模自动驾驶车辆部署的现实世界挑战”无疑直击要害。这里面包含几个层面首先是数据的规模与质量。自动驾驶是数据驱动的但获取海量、高质量、覆盖各种极端场景长尾问题的标注数据成本极高。这也是为什么Waymo、Argoverse等公司持续开源其数据集并举办挑战赛的原因——借助社区的力量共同推进技术边界。Argoverse挑战赛中的“场景挖掘”赛道要求用自然语言描述找到安全关键场景这正是为了解决从海量数据中高效挖掘“危险片段”的难题。其次是仿真系统的可信度与效率。加州大学伯克利分校/Applied Intuition的Wei Zhan博士探讨了“可扩展的神经仿真”。真实的道路测试里程成本以美元/公里计而仿真可以以近乎零的成本运行数百万公里。但仿真的核心是“真实性”模拟的传感器数据是否足够真实模拟的交通参与者AI智能体行为是否足够拟人今年的“Sim Agents挑战赛”就是专门针对后者要求参赛者生成符合真实世界统计规律的多智能体运动轨迹。第一名方案“TrajTok”将轨迹离散化为“token”并用Transformer模型生成展示了如何用AI方法来创造更聪明的AI测试环境。最后是系统可靠性与边缘案例。卡耐基梅隆大学Deva Ramanan教授提到的“感知与仿真”结合是解决长尾问题的另一把钥匙。通过仿真源源不断地生成那些罕见但危险的场景如小孩突然追球跑上马路来持续“喂养”和测试自动驾驶系统使其变得更稳健。2.3 多模态融合与新一代感知架构尽管端到端是热门话题但模块化感知技术的进化从未停止尤其是在多模态融合和高效架构设计方面。感知的目标是为下游提供更精准、更鲁棒的环境理解。今年的论文和挑战赛体现了几个趋势鸟瞰图BEV感知已成为主流范式。将不同视角、不同传感器的数据如前视摄像头、环视摄像头、激光雷达统一转换到自上而下的BEV空间中进行处理极大地简化了后续的融合和任务如检测、分割、预测流程。例如论文《DuoSpaceNet: Leveraging Both Birds-Eye-View and Perspective View Representations for 3D Object Detection》就在探索如何更好地结合BEV和透视图的优势。Argoverse的激光雷达场景流挑战也是在BEV空间下估计行人和弱势道路使用者的运动。纯视觉感知能力边界不断被拓展。在成本敏感的量产方案中依赖摄像头的纯视觉方案是主流。相关研究集中在如何从2D图像中更准确地恢复3D信息以及如何应对恶劣天气和光照条件。论文《Camera-Only 3D Panoptic Scene Completion for Autonomous Driving through Differentiable Object Shapes》尝试仅用摄像头完成3D全景场景补全这是一个非常 ambitious 的任务。雷达感知的价值被重新审视。随着特斯拉等公司推动纯视觉路线毫米波雷达一度被边缘化。但论文《AttentiveGRU: Recurrent Spatio-Temporal Modeling for Advanced Radar-Based BEV Object Detection》展示了通过先进的时空建模基于雷达的BEV目标检测也能达到很高性能。雷达在恶劣天气下的稳定测距测速能力依然是安全冗余的重要组成部分。3. 三大技术挑战赛全解读从数据集到SOTA方案WAD研讨会的一大亮点是联合业界领先公司举办的系列挑战赛。这些比赛不仅是学术竞技场更是行业技术发展的“晴雨表”提供了最真实的问题定义、最庞大的数据集和最客观的性能排行榜。3.1 Waymo开放数据集挑战赛自动驾驶的“全能竞技”Waymo Open Dataset挑战赛已经办到第六届堪称自动驾驶领域的“奥林匹克”。它包含四个独立赛道覆盖了从底层感知到高层决策的完整链条交互预测给定过去1秒的历史轨迹预测场景中多个关键智能体未来8秒的轨迹。这不仅要求模型理解每个智能体的动力学更要理解它们之间复杂的交互关系如跟车、超车、礼让。今年的冠军方案“Parallel ModeSeq”采用了并行化的序列建模高效地捕捉了多模态的未来可能性即一个场景可能有多种合理的未来发展。一个重要的趋势是顶级方案都开始显式地建模场景的拓扑结构如车道线和交通规则而不是单纯地从数据中学习相关性。基于视觉的端到端驾驶这是最接近“完全体”端到端自动驾驶的赛道。输入多摄像头视频序列直接输出未来的规划轨迹。冠军“UniPlan”方案的核心思想是“统一”用一个统一的模型架构处理不同的输入模态图像、轨迹历史和输出任务感知、预测、规划。这减少了模块间的信息损失和误差累积。值得注意的是亚军“DiffusionLTF”使用了扩散模型这类生成式模型在捕捉规划轨迹的不确定性和多模态性方面表现出独特优势。仿真智能体这个赛道评估的是生成逼真交通流的能力。参赛者需要控制仿真中的多个“背景车辆”智能体使其行为与真实世界数据分布一致。冠军“TrajTok”将轨迹生成视为一个“分词-生成”过程借鉴了大语言模型的思想展示了序列生成模型在行为仿真中的潜力。高质量的仿真智能体是进行大规模、高保真安全测试的基础。场景生成与仿真智能体相关但侧重不同它要求生成全新的、具有挑战性的驾驶场景如危险切入、路口冲突。冠军“SimFormer”等方案表明利用生成式AI如Transformer、扩散模型来创造丰富多样的测试用例正在成为加速系统验证的重要手段。实操心得对于想入行或提升的研究者我强烈建议从复现这些挑战赛的顶级方案开始。Waymo数据集质量高、标注完善且社区积累了丰富的baseline代码。不要只盯着最终指标更重要的是理解每个方案针对问题本质所做的设计它们是如何表征数据的模型结构为何有效损失函数如何引导模型学习正确的行为这比单纯调参跑分有价值得多。3.2 Argoverse挑战赛聚焦预测与场景理解Argoverse挑战赛由卡耐基梅隆大学发起今年聚焦三个任务多智能体运动预测与Waymo的交互预测类似但可能更侧重于城市密集交通场景下的行人、车辆等多类别参与者的联合预测。预测的准确性直接关系到规划模块能否做出安全决策。场景挖掘这是一个非常新颖且实用的赛道。给定海量的驾驶日志数据要求用自然语言查询如“找到有自行车突然从停靠车辆后穿出的场景”来定位相应的片段。这本质上是一个跨模态检索任务将文本语义与驾驶场景的视觉/时空特征进行对齐。它为解决“如何在PB级数据中快速找到某个特定边缘案例”这个工程难题提供了AI思路。激光雷达场景流估计连续两帧激光雷达点云中每个点的运动矢量。这对于理解动态物体尤其是行人、自行车等非刚性物体的瞬时运动至关重要是高级别感知和短时预测的基础。这个任务对算法的精度和效率要求都很高。3.3 Nexar行车记录仪碰撞预测挑战赛面向安全的前瞻感知这个挑战赛由行车记录仪网络公司Nexar主办目标非常直接根据行车记录仪视频尽可能早地预测是否会发生碰撞。这属于“前瞻性感知”或“风险预测”的范畴对于高级辅助驾驶系统ADAS和自动驾驶的安全冗余系统有重大意义。比赛的难点在于事故前兆往往非常细微且时间短暂模型需要在有限的、充满噪声如遮挡、天气变化的视频信息中捕捉到危险的信号。这要求模型具备强大的时序建模能力和对场景的深度理解。优秀的方案通常会结合物体检测、轨迹预测、以及基于注意力机制的时空特征融合技术。注意事项这类安全关键型任务除了追求高精度AUC、AP等指标还必须格外关注模型的可解释性和误报率。一个总是“狼来了”的系统会让驾驶员麻木而一个漏报的系统则会造成危险。在模型设计中需要考虑如何输出风险置信度以及可视化的风险依据如高亮风险区域。4. 从论文到实践前沿研究的技术落地路径研讨会上展示的接受论文是未来一两年内可能影响工业界技术选型的前瞻性研究。我们可以从中梳理出几条清晰的技术落地路径。4.1 BEV感知的深化与扩展BEV范式已经确立但如何做得更好、更高效、更鲁棒是当前的研究重点。论文《DySS: Dynamic Queries and State-Space Learning for Efficient 3D Object Detection from Multi-Camera Videos》提出用动态查询和状态空间学习来提升多摄像头视频3D检测的效率。这指向了一个现实问题BEV Transformer中的可学习查询learnable query参数是静态的可能无法自适应不同场景。动态查询机制让模型能根据当前输入动态调整查询焦点从而提升计算资源的利用效率。另一篇论文《What is the Added Value of UDA in the VFM Era?》则提出了一个尖锐的问题在视觉基础模型VFM时代无监督域自适应UDA还有多少价值VFM经过海量数据预训练本身已具备强大的泛化能力。作者通过实验探讨了在已有强大VFM的情况下传统的UDA技术带来的性能提升是否依然显著。这对于决定实际产品研发中是否要投入资源进行针对性的域自适应有很强的指导意义。4.2 神经渲染与仿真数据生成仿真离不开高质量的数据生成。论文《NeuRadar: Neural Radiance Fields for Automotive Radar Point Clouds》将神经辐射场NeRF的应用扩展到了汽车雷达点云领域。传统NeRF多用于相机图像而雷达点云更稀疏、噪声更大。这项工作试图用神经场来表征雷达信号的反射特性从而能够合成新的雷达视角这对于填补雷达数据空白、增强数据多样性有潜在价值。《CE-NPBG: Connectivity Enhanced Neural Point-Based Graphics for Autonomous Driving Scenes》则专注于基于神经点云的图形学方法用于自动驾驶场景的新视角合成。相比于NeRF点云表示在某些情况下渲染效率更高。这类技术是构建高保真、可交互仿真环境的核心组件。4.3 面向量产的成本与效率优化并非所有研究都追求极致性能许多工作着眼于如何在资源受限的车载平台上部署强大模型。《PatchContrast: Self-Supervised Pre-Training for 3D Object Detection》研究的是3D检测的自监督预训练。标注3D边界框成本极高自监督学习可以利用大量无标签数据让模型学习到良好的点云特征表示从而在用少量标注数据微调时获得更好效果这是一种极具性价比的技术路径。《Exploring Semi-Supervised Learning for Online Mapping》探索了在线建图中的半监督学习。高精地图的创建与维护是自动驾驶的一大成本。如果车辆能在行驶过程中利用少量标注数据和大量无标签数据实时地更新局部地图将大大降低对预先制作的高精地图的依赖推动“重感知、轻地图”技术路线的落地。5. 给从业者与学习者的行动指南参加或跟进这样一场顶会研讨会最终目的是为了指导我们的实际工作或学习。以下是一些具体的建议。5.1 对于工业界研发工程师明确技术选型参考如果你正在为公司的感知模块做技术选型那么BEV Transformer及其变体如带动态查询的无疑是当前的首选架构。需要深入评估的是在你们的芯片算力和延迟约束下哪种具体的BEV实现如LSS, BEVFormer, PETR是最优解。可以借鉴《DuoSpaceNet》的思路考虑是否要融合透视视图特征来提升近距离物体的检测精度。关注数据与仿真闭环从研讨会可以看出数据和仿真是驱动自动驾驶进步的双引擎。评估或引入神经渲染、生成式AI来提升仿真场景的真实度和多样性应该提上日程。同时建立类似“场景挖掘”的能力从海量路测数据中自动、高效地发现corner cases对于加速迭代至关重要。端到端与大模型的战略布局虽然完全端到端的量产部署尚需时日但其代表的技术方向值得投入资源进行跟踪和预研。可以从小规模、特定场景如高速巡航的端到端模型探索开始。同时积极评估VLM/LLM在理解复杂指令、进行常识推理、以及生成可解释的决策逻辑方面的潜力它们可能首先在仿真测试、数据标注、人机交互等环节产生价值。5.2 对于学术界研究者与学生找准有潜力的研究方向泛化与鲁棒性在VFM时代如何让一个在某个数据集上表现良好的模型能够无缝适应新的城市、新的传感器配置、新的天气域自适应、领域泛化、以及测试时适应等技术仍然是硬骨头。可解释性与可信AI特别是对于端到端和基于大模型的系统。如何让“黑箱”模型给出其决策的依据这对于通过安全法规和取得用户信任必不可少。具身智能与交互自动驾驶汽车不是一个孤立的智能体它需要与其他车辆、行人进行实时交互。如何建模这种多智能体之间的博弈与合作是一个充满挑战的交叉领域。高效架构与模型压缩让SOTA模型能在车规级芯片上实时运行永远是一个核心工程问题。研究更高效的注意力机制、动态神经网络、以及硬件友好的模型设计既有学术价值也有应用前景。从复现与参赛开始对于学生和新入门者最有效的学习路径就是动手复现顶级会议论文或挑战赛的获奖方案。GitHub上有很多开源实现。可以先从理解代码、在标准数据集上跑通开始然后尝试进行消融实验看看论文中每个模块到底贡献了多少性能提升最后尝试自己的改进。参加Kaggle、Waymo、Argoverse等挑战赛是检验学习成果、积累经验、甚至获得行业关注的绝佳方式。5.3 通用技能与资源获取保持对顶级会议的持续关注CVPR WAD只是其中之一。ICCV、ECCV、ICLR、NeurIPS、CoRL等会议的自动驾驶相关workshop和论文以及专门的自动驾驶会议如ITSC、IV都需要定期浏览。关注这些会议中“最佳论文”、“杰出论文”和口头报告它们往往代表了最强的创新性或最实用的进展。善用开源社区与数据集自动驾驶是开源精神践行得比较好的领域。Waymo、Argoverse、nuScenes、Lyft Level 5等开源数据集是宝贵的资源。PyTorch、TensorFlow等框架的生态中有大量相关的工具库如MMDetection3D, BEVDet, OpenPCDet。积极参与社区讨论向开源项目提交PR是快速成长的捷径。建立系统性的知识体系自动驾驶是一个系统工程不能只懂感知或只懂规划。需要具备跨学科的知识包括计算机视觉、深度学习、机器人学、控制理论、甚至一些车辆动力学的基础。可以通过在线课程如Udacity的自动驾驶纳米学位、Coursera的相关专项、经典教科书如《Probabilistic Robotics》和优秀的博客来系统性地补强。这场为期一天的研讨会就像一扇窗口让我们得以窥见自动驾驶技术洪流的奔涌方向。从扎实的BEV感知到充满想象的端到端与大模型从残酷的技术挑战赛到深思熟虑的学术论文每一条信息都在勾勒着未来交通的蓝图。技术的演进从来不是线性的而是在解决一个又一个具体问题的过程中螺旋上升。对于身处其中的我们而言最重要的或许不是追逐每一个热点而是深刻理解这些技术尝试背后所要解决的本质问题如何让机器更安全、更可靠、更高效地理解并驾驭我们这个复杂而充满不确定性的世界。这份理解将帮助我们在纷繁的技术路径中找到属于自己的着力点。