上海 AI Lab 推出 Agents - A135B 参数模型逼近万亿级长程表现仍有提升空间长程Long - Horizon任务是当前 AI Agent 亟需突破的难题之一。在软件工程、科学研究和复杂决策等场景中Agent 需在长程条件下连续决策任何一步失误都可能影响后续任务。过去这类能力往往依赖更大的模型扩展 Agent Horizon 也是一个重要方向但一直面临基础设施不足和异构能力难以统一的问题。针对这些问题上海 AI Lab 团队推出了一个 35B 参数大小的 MoEAgent 模型——Agents - A1试图不靠继续堆参数仅通过扩展 Agent Horizon用更小的模型逼近万亿参数级模型的长程表现。论文链接https://arxiv.org/abs/2606.30616研究结果显示Agents - A1 在多步搜索、科学研究和长指令遵循等部分任务上已经展现出超过部分万亿参数级模型的表现并在 35B 同规模模型中保持领先。不过研究团队也表示Agents - A1 在工程类任务上仍与前沿大模型存在差距。这项研究提出了一种更经济的强大 AI Agent 开发方法教它们养成更持久的、经过验证的工作习惯而不仅仅是扩大它们的参数规模。Agents - A1 是如何设计的Agents - A1 是一个面向长程任务的 35B 参数 MoE Agent 模型。它依托长程知识 - 动作基础设施通过三阶段训练把多种 Agent 能力整合进同一个模型先进行全领域 SFT再专门训练各领域教师最后通过多教师 on - policy distillationOPD完成统一。具体流程如下1.全领域监督微调SFT该阶段旨在建立模型的通用 Agent 能力。研究团队使用多领域、多任务的高质量长程轨迹数据进行训练增强模型在长上下文条件下的理解、推理和指令遵循能力训练中采用 sample packing将多个较短样本拼接到单个训练序列中并配合注意力掩码防止样本间串扰从而减少 padding 开销、提升 GPU 利用率。2.领域级教师模型训练研究团队将模型能力拆分为搜索、科学推理、指令遵循和工具调用四类专长教师分别设计训练方案。-搜索教师采用 “先 SFT、后 RL” 的两阶段训练并结合 GRPO 提升复杂问题拆解、多跳搜索和工具协同能力目标是在保证正确率的同时减少冗余搜索。-科学教师通过两阶段 SFT先强化科学推导能力再通过工具增强轨迹训练外部交互和证据整合能力让模型学会何时借助外部工具并整合检索或计算得到的证据。-指令遵循教师采用两阶段 RL 和 GRPO 训练第一阶段提升格式、长度、关键词和语言等细粒度约束满足能力第二阶段强化长上下文 ICL 中的证据定位、信息整合和上下文规则遵循能力。-工具调用教师采用工具 SFT 与工具 RL 的两阶段优化重点学习何时调用工具、如何纠错以及何时结束任务并结合结果奖励、过程奖励和高质量困难任务复用提升工具使用能力。3.统一模型阶段研究团队先收集学生轨迹再由对应领域教师打分指导。与离线模仿不同教师直接评估学生自身生成的轨迹。最终模型通过按领域路由的蒸馏和显著词汇对齐兼顾全领域 SFT 的广泛能力与各领域教师的专长。为支撑这一训练流程研究团队构建了以知识 - 动作图 KAG 为核心的知识 - 动作基础设施并通过自博弈不断扩展高质量长轨迹数据。这样训练样本不仅包含问题和答案也能完整保留工具使用与验证过程。实验结果整体来看Agents - A1 在长程搜索、指令遵循和科学推理等任务上表现突出不仅领先同规模 35B 模型也在部分基准上超过了部分万亿参数级模型。具体结果如下1.全领域 SFT 结果显示 Agents - A1 - SFT 在长程搜索、工程任务和科学研究等方向上明显提升但在通用 Agent 任务、指令遵循和 HLE 上出现回落。这说明仅靠全领域 SFT 还难以缓解不同推理模式之间的冲突。2.领域教师模型训练-搜索增强教师在四个基准上都稳定优于 Qwen3.5 - 35B - A3B。尤其在通用 AI 助手基准 GAIA 上提升最为明显数值从 59.8 提升到 95.1。-科学增强教师两阶段 SFT 显著增强了教师模型的科学推理和工具交互能力相较基线模型科学增强教师在各项科学任务上整体更优尤其在 FS - R 上实现了从 2.5 到 54.3 的大幅提升。-指令遵循与长上下文学习实验强化学习显著提升了模型的长上下文理解、指令遵循及对可验证指令约束的泛化能力。总体上RL 增强教师在相关评测中优于 Qwen3.5 - 35B - A3B其中 LongBench V2 和 IFBench 的提升尤为明显。-工具调用实验显式工具使用监督与强化学习显著提升了模型的工具调用能力尤其在需要多轮、结构化交互的任务中效果更明显具体而言工具增强模型在 τ² - Bench 和 VitaBench 上均取得了显著提升。-统一模型实验结果表明多教师 OPD 较单纯的全领域 SFT 更能缓解不同任务推理模式之间的冲突在保留广泛能力覆盖的同时更好地整合各领域专长并进一步提升长程任务表现。案例展示除标准基准外研究团队还通过两个案例展示了 Agents - A1 的长程 Agent 能力。-鲸鱼叫声检测任务Agents - A1 已经能够在较长时间跨度内持续优化完整机器学习流程。模型在一次 12 小时运行中从简单 CNN 基线出发将验证集 AUC 从 0.58 提升至 0.9935。这表明Agents - A1 已超越局部调参具备在多轮迭代中持续改进方案并提升泛化能力的能力。-地球科学任务以 2008 年热带气旋 Nargis 为例模型能够自动识别数据源并完成数据提取、清洗、派生指标计算、可视化和结果综合形成从规划到报告生成的多阶段闭环同时较高保真度地重建了风暴演化过程。不足和未来方向尽管 Agents - A1 在多项长程任务上表现较强但仍存在一些不足。首先模型在 “先规划再推理”“先反思再行动”、长上下文关键信息总结和重要历史信息识别等基础原子能力上仍有提升空间这些能力会直接影响长程任务中的稳定性、目标一致性与执行效率。未来需要重点强化这些基础能力并以此进一步提升 Agents - A1 的长过程求解能力。其次在机器学习工程任务上Agents - A1 与更大模型之间仍有明显差距。未来如何增强模型在完整工程流程中的目标一致性、决策记忆与试验效率仍是一个重要研究方向。最后经过 OPD 训练的统一学生模型并不能在所有领域都稳定超过对应的教师模型。未来如何在模型统一性与领域专长之间取得更好平衡仍是后续需要解决的问题。更多技术细节详见原论文。