人形机器人伤人引安全担忧，Physical Atari 系统为真实世界强化学习提供低成本实验台-尧图建网站

强化学习的「真实世界」难题2026年初成都一家商场里人形机器人与老人碰撞致其受伤猎豹移动傅盛称大模型两三年内难解决安全问题。实验室演示与真实世界差距大模拟和真实环境差异会让训练策略失灵。同一时期Keen Technologies联合阿尔伯塔大学和Openmind研究所发布论文探讨强化学习算法能否在真实世界自主学习。他们打造了Physical Atari系统用于「打Atari游戏」。Atari游戏在AI圈有名此前算法多在模拟器学习真实世界是「实时强化学习」这也是机器人面临的处境。目前机器人领域训练AI有三条路第三条路虽能避免模拟器与现实差异问题但需要耐用便宜的机器人Physical Atari就是答案。团队简介团队第一作者是Keen Technologies的Khurram Javed作者名单中有约翰·卡马克和理查德·萨顿。卡马克是id Software联合创始人开发多款游戏推动虚拟现实量产2022年创立Keen Technologies瞄准通用人工智能。2023年他邀请萨顿加入两人专注研究真实世界持续学习的智能体萨顿也是论文作者Physical Atari体现了他对智能体学习的判断。用一台「机械手」打游戏是怎么造出来的系统有两个核心部件Atari Devbox是塞进3D打印外壳的树莓派5接5英寸屏幕以60帧每秒渲染Atari游戏画面Robotroller是按真实摇杆的机械手通过三个伺服电机控制摇杆动作。摄像头拍画面电脑做决策Robotroller执行。论文重点讲如何让机械手几周内不坏解决了螺丝松动、齿轮磨损、摇杆损坏等问题还加了「高电流反射」机制。奖励信号通过AprilTags视觉标记由摄像头识别机器人感知世界方式与人类玩游戏无本质区别。整套硬件成本控制在1000美元以内Robotroller采购零件约400美元定制部件3D打印耗时约12小时。真机器人真打了145个小时游戏研究者让系统在六款游戏上分别学习五个半小时重复4到5次实验累计近145小时无人干预。另一组实验中智能体在一台Robotroller上学习6小时后策略在「陌生身体」上表现更差在Pong游戏中差距明显。让智能体在「陌生身体」上继续学习策略表现回升。这印证了直接在目标身体上持续学习可修复偏差。系统165毫秒左右的端到端响应延迟在人类反应速度区间内问题出在策略和身体匹配上。结语Physical Atari不打算让机器人学会走路或叠衣服它解决了验证机器人能否在现实世界自主学习的基础问题是便宜耐用、可复刻的实验台在真实世界连续运转145小时且无人干预是检验强化学习算法可靠性的朴素标准。

相关新闻

AudioLLM语音翻译技术解析：架构、评估与实战对比

Ubuntu 20.04下MongoDB远程访问三重安全配置指南

基于鞍点法的稀疏VLSF码解码调度优化，提升短包传输效率

最新新闻

基于LLM的对话信息增益评估：从理论到工程实践

MaxBot抢票神器：5分钟搭建你的演唱会门票自动化助手

从纸笔到数字：Xournal++如何彻底改变你的笔记体验

GateOne：基于HTML5的可审计Web终端服务器实战指南

HsMod炉石传说插件：55项功能全面增强你的游戏体验

终极M3U8视频下载解决方案：告别在线观看限制，永久保存流媒体内容

日新闻

Linux家目录配置Git化管理：从stow部署到原子化运维

第11章：Embedding入门——把文档变成可检索知识

107、 PCIE延迟测量与分析：从一次诡异的丢包说起

周新闻

Google AI Studio 300美元额度的真相与实战指南

【人工智能】一文搞定到底什么是智能体

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

月新闻