千问开源首个原生语言世界模型 Qwen-AgentWorld，性能超越 GPT-5.4 等前沿模型-尧图建网站

【导语千问正式开源发布首个原生语言世界模型 Qwen-AgentWorld能在七大领域模拟智能体交互环境还同步发布评测基准其在评测中表现优异超越多个前沿模型。】Qwen-AgentWorld七大领域全覆盖的语言世界模型千问宣布正式开源发布 Qwen-AgentWorld这是首个原生语言世界模型LWM。它能够在七大领域中模拟智能体交互环境包括文本类环境MCP、Search、Terminal、SWE与 GUI 类环境Web、OS、Android实现跨领域知识迁移。该模型基于超过 1000 万条真实环境交互轨迹经由 CPT - SFT - RL 三阶段训练而成。世界建模在智能体训练中的双重作用Qwen-AgentWorld 探讨了世界建模在智能体训练中的作用并通过两种互补范式加以验证。作为解耦的环境模拟器它为智能体强化学习提供了更优的可扩展性与可控性可控的模拟 RL 能够以真实环境无法实现的方式塑造智能体行为且显著优于仅在真实环境中训练的 RL。作为统一的智能体基础模型LWM 预热训练可有效迁移至涵盖七个基准其中三个完全未出现在训练集中的多轮智能体任务且无需在智能体任务上进行任何 RL 微调初步验证了语言世界模型能够作为构建更强智能体模型的基础。AgentWorldBench 评测Qwen-AgentWorld 超越竞品同步发布的 AgentWorldBench 是一个覆盖七大领域的语言世界模型评测基准每条测试样本均配备真实环境执行所得的真实环境观测数据。Qwen-AgentWorld-397B-A17B 在 AgentWorldBench 上取得最高的整体均分58.71超越 GPT-5.458.25及所有其他前沿模型在 Terminal 和 SWE 两个领域优势最为显著。在 35B-A3B 规模上三阶段训练流水线将整体均分提升了 8.6647.73-56.39使 Qwen-AgentWorld-35B-A3B 超过 Claude Sonnet 4.656.04且在文本类和 GUI 类领域上均保持一致。编辑观点Qwen-AgentWorld 的开源发布为智能体领域带来新突破其多领域覆盖与出色性能有望推动智能体技术发展也为行业竞争增添新动力。

相关新闻

RAG 是什么？16 种 RAG 方案一次讲清！AI 应用开发必学 | 万字干货

Ryzen AI 代码生成实测，斐波那契函数带注释输出

HACS集成项目终极指南：高效管理Home Assistant自定义组件

最新新闻

计算机毕业设计之基于微信小程序的外卖应用

MAML++实战指南：元学习小样本泛化稳定性优化

过拟合的本质与六大实操防御方案

融合CV与密码学：构建自适应GUI自动化测试新范式

Flask 笔记十：把查询逻辑抽到 service，让 views 变薄

ResNet50、YOLOv8与点云：民宿房源实景核验三大平台算法落地对比与工程实践

日新闻

过度设计的代价：从 Maven 版本幻觉到工程上的简单原则

MC-037 | 自定义 Skill 开发：创建你的AI能力模块

Claude Code 提示词设计：从塑造“人格”到建立“状态机”

周新闻

Google AI Studio 300美元额度的真相与实战指南

【人工智能】一文搞定到底什么是智能体

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

月新闻