强化学习的「真实世界」难题2026年初成都一家商场里人形机器人与老人碰撞致其受伤猎豹移动傅盛称大模型两三年内难解决安全问题。实验室演示与真实世界差距大模拟和真实环境差异会让训练策略失灵。同一时期Keen Technologies联合阿尔伯塔大学和Openmind研究所发布论文探讨强化学习算法能否在真实世界自主学习。他们打造了Physical Atari系统用于「打Atari游戏」。Atari游戏在AI圈有名此前算法多在模拟器学习真实世界是「实时强化学习」这也是机器人面临的处境。目前机器人领域训练AI有三条路第三条路虽能避免模拟器与现实差异问题但需要耐用便宜的机器人Physical Atari就是答案。团队简介团队第一作者是Keen Technologies的Khurram Javed作者名单中有约翰·卡马克和理查德·萨顿。卡马克是id Software联合创始人开发多款游戏推动虚拟现实量产2022年创立Keen Technologies瞄准通用人工智能。2023年他邀请萨顿加入两人专注研究真实世界持续学习的智能体萨顿也是论文作者Physical Atari体现了他对智能体学习的判断。用一台「机械手」打游戏是怎么造出来的系统有两个核心部件Atari Devbox是塞进3D打印外壳的树莓派5接5英寸屏幕以60帧每秒渲染Atari游戏画面Robotroller是按真实摇杆的机械手通过三个伺服电机控制摇杆动作。摄像头拍画面电脑做决策Robotroller执行。论文重点讲如何让机械手几周内不坏解决了螺丝松动、齿轮磨损、摇杆损坏等问题还加了「高电流反射」机制。奖励信号通过AprilTags视觉标记由摄像头识别机器人感知世界方式与人类玩游戏无本质区别。整套硬件成本控制在1000美元以内Robotroller采购零件约400美元定制部件3D打印耗时约12小时。真机器人真打了145个小时游戏研究者让系统在六款游戏上分别学习五个半小时重复4到5次实验累计近145小时无人干预。另一组实验中智能体在一台Robotroller上学习6小时后策略在「陌生身体」上表现更差在Pong游戏中差距明显。让智能体在「陌生身体」上继续学习策略表现回升。这印证了直接在目标身体上持续学习可修复偏差。系统165毫秒左右的端到端响应延迟在人类反应速度区间内问题出在策略和身体匹配上。结语Physical Atari不打算让机器人学会走路或叠衣服它解决了验证机器人能否在现实世界自主学习的基础问题是便宜耐用、可复刻的实验台在真实世界连续运转145小时且无人干预是检验强化学习算法可靠性的朴素标准。