Qwen-Image-Agent发布:Agent如何填补AI生图的上下文鸿沟
Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation作者Zekai Zhang, Jiahao Li, Jie Zhang, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Shengming Yin, Tianhe Wu, Xiaoyue Chen, Xiao Xu, Yan Shu, Yanran Zhang, Yixian Xu, Yuxiang Chen, Zhendong Wang, Zihao Liu, Zikai Zhou, Huishuai Zhang, Dongyan Zhao, Chenfei Wu核心发表机构论文源码未明确标注或暂未可靠识别论文链接arXiv:2606.26907v2发布于arXiv 预印本cs.CV|:—:—:—:—:—| 完整模型 |45.3|43.7|46.1|49.0|45.4|| w/o Reason 上下文 | ↓ 24.7 | ↓ 29.7 | 46.1 | 49.0 | ↓ 35.1 || w/o Search 上下文 | 46.0 | 44.3 |↓ 7.8| 49.0 | ↓ 34.3 || w/o Memory 上下文 | 45.3 | 43.7 | 46.1 |↓ 0.0| ↓ 40.5 || w/o Feedback 上下文 | 40.0 | 41.3 | 42.8 | 49.0 | ↓ 42.1 || 替换 MLLM 骨干 | ↓ 24.7 | 41.7 |↓ 19.4|↓ 21.0| ↓ 27.8 || 替换生成骨干 | ↓ 19.3 | ↓ 30.7 | ↓ 31.1 | ↓ 40.0 | ↓ 28.3 |核心发现每个接地上下文模块推理、搜索、记忆、反馈对相应能力维度都是不可或缺的。移除推理上下文不仅大幅降低 Reason 分值也损害了 Plan 能力因为枚举等隐含需求需要通过推理来解决。移除搜索上下文使 Search 能力几乎归零7.8 vs 46.1。移除记忆上下文使 Memory 能力完全消失0.0验证了 IA-Bench 维度设计的有效性。移除反馈上下文的影响相对较小IA-score 从 45.4 降至 42.1这是因为基础生成器本身能力较强但反馈仍能在某些边缘情况下提供改进。替换 MLLM 骨干如换为 Qwen 系列导致整体性能大幅下降IA-score 降至 27.8说明 MLLM 的通用智能布局规划、关键词生成、信息集成是系统瓶颈。替换生成骨干同样严重损害各维度IA-score 降至 28.3表明底层渲染能力计数、视觉推理、风格匹配至关重要。五、相关工作 / Related Work现有图像生成研究主要沿以下几个方向推进但大多仅覆盖部分智能体能力缺乏统一视角。基于规划的方法如 PhotoAgent能将复杂意图分解为中间步骤但未系统处理上下文获取。基于推理的方法如 MindBrushIA能处理隐含意图但未集成搜索或记忆。基于搜索的方法如 GenSearcher、AgentB、ImAgent整合了网页或图像搜索但忽略了规划与记忆。基于记忆的方法如 GEMSAM支持长程交互但缺乏推理与反馈。基于反馈的方法如 GenAgent、ImAgent通过测试时缩放改进生成但未纳入规划与记忆。Qwen-Image-Agent 的独特性在于将plan、reason、memory、search、feedback五种能力统一在一个以上下文为中心的框架中从识别上下文差距出发系统性地构建生成上下文。此外大多数现有基准如 GenEval、DPGBench、WISE、MindBench仅评估渲染能力或单一智能体能力而 IA-Bench 同时覆盖规划、推理、搜索、记忆四个维度提供了更全面的评估工具。六、局限性与展望 / Limitations Future Work尽管 Qwen-Image-Agent 取得了显著成果但仍存在以下局限和改进方向未识别的上下文差距规划模块依赖 MLLM 识别缺失上下文。当差距过于隐晦例如需要从特定日期和地点推断历史事件时MLLM 可能无法准确识别。瓶颈在于 MLLM 的领域知识广度与推理深度。未来可结合更强大的 MLLM 或专用知识图谱。推理与搜索的模糊边界实践中某些事实既可通过参数知识推理解决也可通过外部检索搜索解决。当前策略将常识归为推理、精确事实数字、日期和动态事实随时间变化归为搜索。该划分虽有助于解耦但可能不适用于所有场景。未来可引入自适应决策机制根据置信度在推理和搜索间动态选择。过度图像搜索引入视觉偏差过量的图像搜索会引入不相关的视觉参考反而降低生成质量。这主要是因为编辑模型不如直接生成模型鲁棒。当前策略仅在明确需要 IP 参考时调用图像搜索并限制结果数量。未来可借助生成式评估器判断参考图像的相关性并动态调整搜索阈值。多轮生成中的上下文爆炸多轮交互中图像 token用户提供、历史生成、搜索得到迅速增长可能超出 token 限制。当前基于相关性进行上下文选择而非保留所有历史但选择策略的鲁棒性有待提升。未来可开发更高效的历史压缩或摘要方法。弱反馈监督当前反馈仅作为生成后的后验批评依赖 VLM 泛化反馈信号提升有限。未来可扩展反馈以监督上下文识别和接地阶段即检查规划是否正确、搜索是否充分或引入明确的任务特定监督如预定义指标、学习奖励模型。高延迟与成本完整智能体流程引入了更高的计算延迟和 API 成本。尽管可通过 DAG 执行实现部分并行化但整体成本仍需优化。未来可探索轻量级规划器或蒸馏版模型。七、总结 / Conclusion本文识别了真实世界图像生成中的核心挑战——上下文差距即用户提供的部分上下文与 T2I 模型所需的充分生成上下文之间的不匹配。为弥合这一差距我们提出了Qwen-Image-Agent一个统一的智能体框架通过上下文感知规划和上下文接地有机整合了规划、推理、搜索、记忆和反馈五种能力渐进式地构建完整的生成上下文。该框架是训练无关的兼容现有生成器并支持多图像与多轮交互。同时我们构建了IA-Bench基准从规划、推理、搜索、记忆四个维度全面评估智能体图像生成能力。在 IA-Bench、WISE-Verified 和 MindBench 上Qwen-Image-Agent 均取得了最先进的性能消融实验验证了各关键模块的有效性。这项工作标志着从直接图像生成向智能体图像生成的必要转变为未来更智能、更适应真实世界需求的图像生成系统提供了统一的理论视角和实用的实现框架。原文摘要:While text-to-image (T2I) models have achieved remarkable progress, they struggle with real-world requests that are often underspecified, implicit, or dependent on up-to-date knowledge. We identify this challenge as the Context Gap: the mismatch between the user context and the sufficient generation context for T2I models. To bridge this gap, we propose Qwen-Image-Agent, a unified agentic framework that integrates plan, reason, search, memory and feedback in a context-centric manner. Qwen-Image-Agent treats user input as partial context and progressively constructs the generation context through Context-Aware Planning and Context Grounding. Specifically, Context-Aware Planning identifies missing context and plans how it should be acquired and used, while Context Grounding gathers this context from reason, search, memory, and feedback. To evaluate agentic image generation, we further introduce Image Agent Bench (IA-Bench), a benchmark covering four core image agent capabilities: Plan, Reason, Search, and Memory. Experiments on IA-Bench, Mindbench and WISE-Verified show that Qwen-Image-Agent outperforms strong baselines and achieves state-of-the-art performance.PDF链接:https://arxiv.org/pdf/2606.26907v2部分平台可能图片显示异常请以我的博客内容为准