1. 项目概述FUSE-Bike平台与BikeActions数据集在自动驾驶和移动机器人领域准确理解弱势道路使用者VRU的行为意图是确保安全交互的关键挑战。传统研究主要从车辆视角分析行人过街行为而忽略了自行车道、人行道等密集共享空间中的复杂互动场景。这种视角局限使得现有系统难以捕捉骑行者手势、行人姿态等细微但关键的意图信号。FUSE-Bike平台应运而生这是首个完全开源的自行车载感知系统通过LiDAR、相机和GNSS的多模态传感器融合直接从骑行者视角采集高保真数据。基于该平台研究团队构建了BikeActions数据集——包含852个标注样本的跨模态基准专门用于提升VRU行为建模能力。与Waymo、nuScenes等车辆中心化数据集相比其独特价值体现在三个方面真实VRU视角1.5米高度的传感器布置完美复现骑行者和行人的自然视线范围捕捉传统车载传感器无法获取的近距离交互细节如0.5-3米范围内的手势交流多模态时空对齐通过硬件级PTP时间同步μs级精度和基于LiDARTag的标定技术实现RGB图像、双LiDAR点云与GNSS定位数据的像素级对齐动作语义丰富性专注5类高频关键动作行走、站立、骑行、左转手势、右转手势每样本平均持续3.6秒36.2帧10Hz覆盖城市交通中最需预测的意图信号关键设计理念不同于将VRU简化为bounding box的传统做法BikeActions通过3D骨架序列20个关节点表征动作消除背景干扰直接建模人体运动本质。这种表示方式对光照变化、遮挡等现实噪声具有天然鲁棒性。2. 硬件平台深度解析2.1 传感器配置与集成设计FUSE-Bike的硬件架构围绕机动性汽车级精度双目标设计其传感器选型体现三大考量互补感知范围OS2-128长距LiDAR200m10%反射率与OS0-128近场LiDAR35m10%±45°垂直FOV组合确保从0.5米到200米的全范围覆盖时空基准可靠性Septentrio双天线RTK-GNSS提供10mm定位精度和0.1°航向精度同时作为PTP主时钟源计算-存储平衡Jetson AGX Orin32TOPS AI算力配合6TB RAID存储2xNVMe2xSATA SSD满足8小时连续采集的吞吐需求传感器布局采用前感知-后计算的模块化设计图2。前端传感器塔通过CNC加工铝合金支架实现刚性连接将振动导致的标定误差控制在±0.1°以内。后置电子舱采用IP67防护等级内置主动散热系统确保-10°C至45°C环境下的稳定运行。2.2 标定与同步关键技术2.2.1 多传感器标定流程标定质量直接决定多模态数据融合效果FUSE-Bike采用三级标定体系相机内参标定使用棋盘格标定板通过OpenCV实现12bit RGGB图像的镜头畸变校正得到内参矩阵K式1# 标定代码示例 ret, K, dist, rvecs, tvecs cv2.calibrateCamera( obj_points, img_points, (2200, 1200), None, None )LiDAR-相机外参标定基于LiDARTag标记物通过RANSAC算法优化求解T_cam←os2变换矩阵重投影误差1.5像素LiDAR间标定采用基于平面特征的ICP算法利用建筑物立面等稳定结构对齐OS0与OS2点云最终实现0.05m的配准精度2.2.2 硬件级时间同步为实现μs级时间对齐系统部署了基于IEEE 1588v2(PTP)的全套同步方案GNSS模块作为Grandmaster时钟通过2.5G以太网分发同步信号相机和LiDAR配置为Slave节点采用硬件触发模式采集数据Jetson通过DPDK实现内核旁路确保时间戳记录抖动5μs实测表明该方案在动态骑行场景下跨模态数据的时间偏差稳定在±20μs内满足高速运动物体的精准运动分析需求。3. BikeActions数据集构建3.1 数据采集与预处理数据集采集于德国慕尼黑的12个典型城市场景涵盖以下环境特性光照多样性晴天50klux至阴天5klux的光照梯度场景复杂度自行车专用道、混合车道、人行横道等6类功能区域交互密度单场景最多同时追踪9个VRU个体原始数据处理流程包含四个关键步骤自动分段将连续录制数据切割为20秒的片段200帧人物检测与追踪采用YOLOv7ByteTrack实现2D bounding box跟踪3D姿态估计基于HybrIK算法从RGB和LiDAR数据生成3D骨架质量过滤剔除遮挡率30%或跟踪丢失率15%的片段3.2 标注规范与质量控制为提升标注一致性团队制定了严格的标注协议动作边界定义要求标注员根据肢体运动突变点如手臂抬起瞬间确定动作起止帧可视性验证对于手势类动作要求相应手臂在≥80%帧数中完全可见时序连续性禁止同一动作样本中出现3帧的中间状态如手势半途放下最终数据集包含5类动作表3其中Cycling: Left/Right类别经过左右镜像增强样本量提升至129个。所有标注均通过交叉验证确保Krippendorffs α0.85的评分者一致性。4. 动作识别基准测试4.1 模型架构对比研究团队评估了5类前沿骨架动作识别模型在BikeActions上的表现4.1.1 GCN-based方法HD-GCN通过层次化图分解捕获关节点多尺度关系CTR-GCN动态调整图拓扑自适应学习关节连接重要性Koopman Pooling将骨架运动建模为线性动力系统4.1.2 Transformer-based方法Hyperformer利用超图建模非物理连接的关节交互如左手-右脚Skateformer引入相对距离编码增强空间感知能力所有模型输入统一为64帧的骨架序列T64V20C3采用关节(joint)和骨骼(bone)双模态数据。其中骨骼模态通过相邻关节坐标差计算显式编码肢体朝向信息。4.2 训练细节与结果分析实验设置遵循以下原则数据增强仅使用水平翻转对Left/Right类别特别重要优化策略AdamW优化器初始lr0.001cosine衰减评估指标分类准确率按样本数加权基准结果表4显示模态差异关节模态整体优于骨骼模态96.15% vs 94.62%表明直接建模关节运动对VRU动作更有效模型对比Hyperformer在两类模态上均领先其超图注意力机制特别适合处理骑行中非常规肢体交互误分类模式如图6所示主要混淆发生在Standing与Walking之间约8%而手势类识别准确率97%实战建议对于实时应用推荐CTR-GCNJoint方案——其在保持93.08%准确率的同时推理速度达215FPSRTX 4090比Hyperformer快3.2倍。5. 应用展望与挑战5.1 实际部署考量将实验室模型转化为实际安全系统需解决计算效率通过知识蒸馏将Hyperformer压缩到Jetson Orin可运行的版本目标50ms延迟遮挡鲁棒性开发基于时空注意力机制的补全算法应对城市环境中常见的部分遮挡在线学习利用持续学习策略适应新出现的VRU动作模式5.2 数据扩展方向当前数据集的局限在于动作类别较少未来计划增加行人奔跑、骑车人回头查看等紧急动作引入雨雾等恶劣天气条件下的采集数据通过4D Gaussian Splatting合成罕见场景数据FUSE-Bike的开放设计已开源CAD模型与驱动代码允许研究社区共同扩展该平台。我们特别推荐在以下场景进行数据补充学校周边儿童行为模式共享单车密集区的超车交互夜间弱光环境下的动作特征这种众包式数据生态将加速VRU行为理解的边界突破最终实现零愿景的交通安全目标。