专为AI研究设计的浏览器安卓模拟器,内置28个模拟应用和416个任务模板,单机可并行256个实例
搞 mobile agent 研究的朋友跟我吐槽过拿真机训练 AI 操控手机成本高得离谱。你想啊AI 在手机上点错一下可能钱就转出去了账号就注销了根本没有后悔的机会。更头疼的是真机环境下 AI 只能看到 UI 树余额、订单状态这些关键信息根本读不到研究者只能让 VLM “看图猜话”来做评判错误率能到 10.2%。把安卓搬进浏览器里MobileGym 的思路挺有意思的它不是在你手机上跑而是直接在浏览器里模拟了整个安卓环境。说白了就是用结构化的 JSON 状态替代了真实设备内置了 28 个模拟应用和 416 个任务模板。评判器直接读取环境状态毫秒级出结果百万次评判也不会崩。每个实例大概 400 MB 内存、50 MB 磁盘256 个实例并行跑起来 CPU 占用不到 10%完整评估六分钟就搞定了。强化学习的并行难题说到这儿你可能想问为什么不直接在真机上跑强化学习其实道理很简单真实 App 的数据存在加密数据库和服务器后端重置不了也克隆不了。GRPO 这类群体强化学习需要大量并行 rollout在真机上基本是幻想。MobileGym 使朋了状态快照和克隆机制256 个并行实例在一台服务器上轻松运行。而且它能做全环境状态比对AI 误操作产生的副作用都能被捕捉到。模拟到真实的迁移效果最让我信服的是实测数据。在 59 个信号任务上模拟训练后的模型部署到真实的 Redmi Note 12 Turbo成功率达到了 72.9%而真机基线只有 32.2%提升了 40.7 个百分点。模拟端 76.7%真实端 72.9%保留率 95.1%——这个 sim-to-real 的差距确实很小了。不过话说回来28 个模拟应用的覆盖面毕竟有限涉及复杂网络请求或支付流程的场景基本没有模拟。而且确定性评判器需要预先定义成功条件灵活性不如 VLM 评判。另外整个项目的部署配置对非系统背景的研究者来说有一定门槛上手需要花点时间。如果你在做 mobile agent 方向的研究可以试试有在线体验地址可以先看看再决定要不要本地部署。下载链接https://pan.quark.cn/s/64277de55392