Arbor框架:相同预算下性能比其他模型高2.5倍,助力AI编码代理学习进步
Arbor框架保存长期研究经验性能提升显著研究人员称一种名为Arbor的全新框架能保存长期研究任务中的假设、实验和经验教训在相同预算下其性能比其他模型高出2.5倍。图片来源Shutterstock - Wanan Wanan解决AI编码代理问题推出Arbor框架AI编码代理往往会孤立地开展研究进行实验并产生新想法但当上下文窗口重置时这些想法就会被遗忘。这会造成token的浪费因为模型会重复相同的错误走进相同的死胡同。不过新研究认为需要调整的并非模型本身而是整体的“树状结构”。为此中国人民大学高瓴人工智能学院和微软研究院的数据科学家推出了Arbor这是一种“持久假设树”能帮助代理在长期研究过程中记住并完善所学知识。Arbor框架的运行与效果一个长期存在的协调器负责管理整个树状结构的研究策略而短期执行器则会创建独立的工作树来测试不同的假设。随着实验结果的反馈树状结构会不断更新在整个实验过程中逐渐细化和收敛。在实际测试中在相同预算下该技术在现实世界的工程任务中比标准AI编码代理的性能提升了两倍多。Info - Tech研究集团的研究总监Mahmoud Ramin表示“Arbor会随着时间积累信息让代理能够像人类一样通过学习、适应并最终在过去所学的基础上不断进步。”Arbor的运作机制研究进展的关键因素Arbor的开发者认为仅靠长时间执行并不能保证研究取得进展。关键在于维持一种状态将众多独立的尝试转化为“累积假设细化”。此外他们指出研究进展不应依赖人类监督者定期介入来指定下一步逻辑或解读先前试验的意义。为实现真正的自主智能研究框架必须随着时间推移保持实验、数据、结果和失败之间的联系。满足的系统要求Arbor的构建满足三个系统要求。首先它必须能够分支让子树测试所有可能合理的竞争假设。同时无限制的分支可能会使整个框架陷入混乱因此必须加以控制保持结构有序。研究人员将其称为“连贯分支”。其次基础设施必须将局部执行与整体策略分开。测试单个假设需要进行短期任务如编辑、调试和评估。但这些任务不应“掩盖”基于整个运行过程中收集的证据所做的决策。最后系统必须能够区分探索性改进和已验证的改进。这可以防止AI在试错过程中过度拟合而是从底层模式中进行迭代学习。持久性的核心作用持久性是核心所在这棵树将假设和想法、用于测试它们的代码或配置工件、实验证据结果、指标以及提炼的见解例如“这个数据过滤器有帮助但这个学习率调度器没有”联系起来。项目启动后短期执行的工作树运行代码、记录工作并收集指标。位于上方的长期协调器实际上充当了研究负责人的角色密切关注过程、更新节点、选择“有前景的分支”、修剪或合并分支、传播可复用的经验教训并决定接下来要探索哪些假设。Arbor的开发者写道“因此这棵树充当了系统的运营研究状态。它同时是搜索前沿、过去尝试的记忆以及已验证工件改进的审计轨迹。”在新数据上超越Codex和Claude测试过程与指标为了测试这一过程的效果研究人员在自主优化AO环境中对Arbor进行了评估为代理提供一个初始研究工件数据管道、测试工具或训练脚本并要求它通过迭代实验提高其“保留性能”且无需人工干预。保留性能是机器学习ML中的一个指标用于评估模型在未见过的数据上的泛化能力。测试任务与结果这种基于树的架构在多个实际研究任务中进行了测试包括模型训练改进训练配方和超参数的能力、测试工具工程升级评估或训练测试工具的能力和数据合成为训练或评估生成更好数据的能力。最终在相同的资源预算下Arbor的平均保留性能提升比Codex和Claude Code高出2.5倍。研究结论与担忧研究人员表示结论是与将相同模型作为“无记忆”编码代理运行相比维护一个结构化、不断发展的假设树能带来更大的性能提升。Info - Tech的Ramin指出Arbor最具创新性的特点是能够保持代理的记忆并保留先前尝试和假设的相关数据。他还表示“自主代理的下一步可能是随着时间积累证据。”不过他也指出这确实引发了对大规模稳健研究环境可审计性的担忧。“随着自主代理在无人监督的情况下执行任务的能力越来越强企业需要了解代理采取特定行动或得出特定结论的方式和原因。”关键词人工智能、开发工具、软件开发