机器人也来真实世界打游戏了……2026 年初成都一家商场里一台正在表演的人形机器人与围观的一位老人意外发生碰撞两者双双倒地老人随即被送医确诊为软组织挫伤。事后猎豹移动董事长傅盛公开评论称这并非人形机器人第一次伤人也不会是最后一次以现在大模型的能力两三年内都很难妥善解决人形机器人的安全问题。事实上机器人在现实生活一直都状况不断而这类事件表明实验室和发布会上行云流水的演示一旦进入不可预测的真实世界经常说不准下一步会发生什么。这背后藏着一个更深的规律让 AI 在模拟器里学会一件事和让它在真实世界里把这件事做稳完全是两道不同的难关差距往往比想象中更大。哪怕是同一套算法、同一个任务模拟环境和真实环境之间的任何细微差异光线、地面摩擦力、机器人身体本身的公差都可能让一套训练好的策略瞬间失灵。而就在人形机器人行业为「能不能站稳」反复交学费的同一时期由传奇程序员约翰·卡马克John Carmack领导的 Keen Technologies联合阿尔伯塔大学和 Openmind 研究所的研究者们发布了一篇论文从一个更基础的角度回应了这个问题能不能让强化学习算法在真实世界里真刀真枪地、长时间不间断地自己学习而不需要人在旁边照看也不需要一上来就指望它一次成功为了回答这个问题他们造了一套系统专门用来「打 Atari 游戏」。这套系统名曰Physical Atari。强化学习的「真实世界」难题Atari 游戏在 AI 圈并不陌生。早在 2013 年DeepMind 用深度强化学习算法在模拟器里学会了打 Atari 游戏这被视为深度强化学习崛起的标志性时刻之一此后 Rainbow、MuZero 等一系列经典算法也都拿 Atari 游戏当作标准考场。但这些考场清一色是模拟器游戏世界会乖乖等着算法做完决定再继续往下走。真实世界完全不是这样。比如你开车时前方出现状况哪怕你正在思考要不要踩刹车车依然在继续往前开——世界不会等你。论文把这种「世界不等你」的设定称为「实时强化学习」并指出这恰恰是机器人所面临的真实处境。目前机器人领域训练 AI 主要靠三条路第一条是在模拟器里练好了再搬到真机器人上这也是现在大多数人形机器人厂商的主流做法但模拟器和真实世界之间的差异正是前面那些摔倒事件的根源第二条是靠人类远程操控机器人采集大量示范数据再用这些数据离线训练第三条也是最少人走的一条路是让机器人直接在真实世界里边干边学。第三条路省掉了建模拟器、省掉了雇人采数据的成本也从根本上避免了「模拟器和现实不一样」这个老大难问题但代价是你需要一台足够耐用、足够便宜、能被普通研究者负担得起还能撑住几周不间断高强度运转的机器人。Physical Atari就是冲着这个空白做出来的答案。团队简介这支团队的第一作者是 Keen Technologies 的研究科学家Khurram Javed。而其作者名单中还出现了两位大神的名字约翰·卡马克John Carmack与理查德·萨顿Richard S. Sutton。卡马克是 id Software 的联合创始人曾主导开发了《毁灭战士》、《雷神之锤》等划时代游戏并因发明多项 3D 图形算法被写入计算机图形学教科书。2013 年加入 Oculus 担任 CTO 后他又把虚拟现实从概念变成了量产产品。2022 年他离开 Oculus创立 Keen Technologies把目标对准了通用人工智能AGI。第二年他邀请了强化学习领域的奠基人之一、阿尔伯塔大学教授 Richard S. Sutton 加入 Keen Technologies两人此后一直专注于研究能在真实世界中持续学习、持续适应的智能体。而 Sutton 本人也是这篇论文的作者之一。这意味着眼前这台机械手不只是工程团队的动手实践也直接体现了这位强化学习理论奠基人对「智能体该怎么学」这件事的判断。Physical Atari 正是这套理念的一次具体落地与其在论文里空谈「智能体应该在现实中学习」不如先把硬件造出来让算法真的跑起来。用一台「机械手」打游戏是怎么造出来的整套系统其实只有两个核心部件。一个叫Atari Devbox本质是一台塞进 3D 打印外壳里的树莓派 5接上一块 5 英寸屏幕跑着经典的 Arcade Learning Environment 模拟器以 60 帧每秒的速度渲染 Atari 游戏画面。另一个叫Robotroller是一只专门用来按真实摇杆的机械手它不会去触碰任何电路或代码只是像人一样握住一支没有经过任何改装的 AtariCX40摇杆通过三个伺服电机分别控制摇杆的上下、左右移动和开火按钮。一台摄像头对着屏幕拍下游戏画面运行强化学习算法的电脑根据画面做决策再把指令发给 Robotroller后者负责把这个决策变成真实的手部动作。这个设计思路的关键是让 AI 完全通过「看屏幕、动摇杆」这种最朴素的人类交互方式跟游戏对话不开任何后门也因此能直接复用游戏机制本身、不用额外搭建仿真接口。听起来简单但论文里花了大量篇幅讲的其实是「怎么让一只机械手在几周内不坏」。研究者最早遇到的问题是螺丝会松动解决办法是改用螺纹锁固胶接着发现伺服电机内部的塑料齿轮会磨损于是换成了金属齿轮版本的伺服电机再后来发现摇杆本身被这套机械手「用坏了」追根溯源是因为电机的运动太「猛」给摇杆造成了不必要的应力于是团队重新调整了控制参数让动作变得更柔和。最有意思的一处修复是研究者给伺服电机加上了一个「高电流反射」机制一旦检测到某个电机的电流超过设定阈值通常意味着它被卡住或顶到了硬限位系统会立刻让它原地停住、瞬间松开扭矩再重新锁紧就像人体的腱反射在过度拉伸时自动收缩肌肉一样避免电机硬扛着烧坏。这个机制听起来不起眼却是让整套系统能连续运转几周不出故障的关键一环。至于「奖励信号」游戏得分团队也没有用网线或代码偷偷传输而是让 Devbox 屏幕上同步显示一组 AprilTags 视觉标记由摄像头直接「看」出当前是加分还是减分。换句话说这台机器人感知世界的方式从画面到得分全部通过摄像头这一个通道完成跟人类玩游戏没有本质区别。整套硬件成本被控制在1000 美元以内其中 Robotroller 本身需要采购的零件伺服电机、轴承、螺丝等大约 400 美元定制部件可以用一台普通消费级 3D 打印机打出来耗时约 12 小时。真机器人真打了 145 个小时游戏研究者让这套系统在 Pong、Seaquest、Ms Pacman、Assault、Asterix 和 Kangaroo 六款游戏上分别学习五个半小时每款游戏重复 4 到 5 次实验。累计下来这些实验总共跑了将近 145 个小时期间没有任何人工干预——没有人去扶它、没有人去重启它机械手自己一遍遍按着摇杆自己一点点学会怎么把游戏分数往上拉。更值得关注的是另一组实验研究者先让一个智能体在某一台 Robotroller 上学习 6 小时然后把训练好的策略分别部署到原来那台机器人和另一台「按同样图纸造出来」的机器人上测试。结果是即便两台机器人用的是完全相同的设计图纸和零件策略在「陌生身体」上的表现也始终明显更差。在需要精准卡点的 Pong 游戏里这种差距格外明显挪到新机器上的策略能看出球的方向、能往正确的方向移动球拍却总是差那么一点点没接住因为哪怕是同型号零件之间的微小公差都足以让原本卡得很准的时机错位。Pong 与 Kangaroo 游戏画面研究者随后让智能体在「陌生身体」上继续学习结果策略表现逐渐回升重新逼近换身体前的水平。这组对照实验从侧面印证了论文反复强调的一个判断哪怕差异小到「同款机器人换了一台」只要存在于训练和部署之间就足以拖累表现而直接在目标身体上持续学习是修复这种偏差最直接的办法。整个系统165 毫秒左右的端到端响应延迟也大致落在人类反应速度的区间内说明这套硬件的「反应能力」本身没有成为瓶颈问题确实出在策略和身体之间的匹配上。结语Physical Atari 本身并不打算让机器人学会走路或叠衣服它解决的是一个更基础的问题如果想验证「机器人能不能在现实世界里自己学习」这件事至少现在有了一套足够便宜、足够耐用、谁都能复刻的实验台。比起在发布会舞台上展示一段精心调试过的动作在真实世界里连续运转 145 个小时且不需要人工干预或许才是检验一套强化学习算法是否真正可靠的更朴素的标准。原文链接强化学习之父Sutton联手毁灭战士之父Carmack让机器人进入真实世界打游戏-36氪