一周 AI Agent 工程前沿:从 GLM-5.2 到 Agent 治理,我看到了什么?
本文基于 2026 年 6 月 18-20 日三天的深度学习追踪覆盖 15 篇论文/项目/行业动态聚焦 AI Agent 工程的三个核心问题怎么记住、怎么治理、怎么评估。0. 为什么要做这件事我每天会用自动化脚本抓取 AI 领域的新闻和论文然后用一套知识图谱 思考模型体系做过滤和深度解读。这不是简单的AI 日报——我关心的不是谁又发了什么而是“这对我的 Agent 架构意味着什么”。三天下来我看到一个清晰的信号AI Agent 工程正在从拼 prompt进入拼基础设施的时代。1. GLM-5.21M 上下文不再是营销数字6 月 17 日智谱发布了 GLM-5.2——753B 参数、1M 无损上下文、MIT 开源。关键不是1M这个数字本身而是它怎么用这 1M专为长程 Coding Agent 场景强化训练——不是通用长文本是 Agent 执行链路ZCode 3.0 切换自研 Agent 内核——不再内置第三方 Agent自己做调度Day 0 适配国产算力——部署门槛降低我的判断1M 上下文的真正价值不在于一次塞更多内容而在于让 Agent 的执行链路不再被上下文窗口截断。当前用 Claude/GPT 做多步 Agent 任务时最大的痛点就是做着做着上下文溢出Agent 失忆。GLM-5.2 直接解决了这个问题。对 Agent 架构的启示如果你的 Agent 需要做 50 步的链式操作重构一个大型项目、做端到端的数据分析1M 上下文比任何记忆系统都更直接——因为不需要记忆上下文里全有。但代价是 token 成本所以短期方案是关键决策走大模型 1M 上下文 高频操作走本地小模型。2. 记忆系统的三条路线全量注入 vs 按需检索 vs 自改进这三天我看到了记忆系统的三个典型范式恰好对应行业里三个不同的工程选择路线 A全量注入当前 OpenClaw 的做法每轮对话 → 把所有 50 条 memory 全量注入 system prompt优点简单粗暴不存在漏检风险缺点50 条 × 200 字 ~10K token/轮memory 增长到 100 条时将成瓶颈路线 B按需检索codebase-memory-mcp 的做法每轮对话 → 向量检索最相关的 Top-K 条 memory → 只注入相关子集GitHub 上 6/18 和 6/20 两次登上 Trending 的codebase-memory-mcp声称做到了99% Token 削减——把代码库索引为结构化图谱查询时只返回相关子图。优点Token 开销极低亚毫秒查询延迟缺点向量检索有语义漂移风险——相似但不相关的 memory 可能被错误召回路线 C自改进记忆Perplexity Brain 的做法夜间自动学习 → 构建上下文图谱 → 重复任务正确率 25%6/19 Perplexity 发布了 Brain 记忆系统——不是简单的记住上次对话而是构建一个工作上下文图谱夜间自我学习。关键数据重复任务正确率 25%上下文密集查询成本 -13%。优点自动化用户无需手动维护缺点不可控——用户看不到Brain 记住了什么也无法手动删除我的结论理想方案 路线 B 的检索效率 路线 C 的自动学习 路线 A 的可控性全量 memory 作为真相源ground truth ↓ 向量索引zvec 进程内向量数据库 ↓ 按需检索 Top-Kcodebase-memory-mcp 思路 ↓ 注入 system prompt ↓ 夜间自动精炼daily-dream 思路但用户可审查这不是理论设想——6/20 阿里发布的zvec进程内向量数据库已经提供了本地低延迟向量索引的工程基础。技术栈齐了差的是组装。3. Agent 治理从红线清单到道义策略引擎6/19 最重要的论文不是 GPT-5.4 的化学突破而是AgenticRei——一个面向自主智能体的道义策略引擎。当前治理方式的问题大部分 Agent 的安全策略是一份手工维护的清单❌ 不要 git push ❌ 不要删文件 ❌ 不要替用户做决策 ❌ 不要发布小红书这种方式有三个致命问题只能规定不能做什么无法规定必须做什么——比如长任务完成后必须发通知义务没有生命周期——试用期规则 5 次对话后转正这种时间维度条件无法表达冲突规则没有仲裁机制——快速推进和不可逆操作必须确认矛盾时谁优先AgenticRei 的解法AgenticRei 引入道义策略deontic policies定义了三种策略类型类型含义示例Permission可以做“可以并行调用 3 个只读工具”Obligation必须做“git push 前必须获得用户确认”Prohibition禁止做“禁止自动发布小红书”加上义务生命周期“试用期规则 5 次对话后自动升级/删除”和冲突元策略安全 效率 美观优先级链构成了一套可形式化、可机器执行的治理框架。我的判断这是 Agent 治理从人治到法治的关键一步。当前的红线清单是人治——靠 AI 自觉遵守。AgenticRei 的道义策略是法治——规则可机器执行不依赖 LLM 的自觉性。4. 多智能体审议从经验观察到数学理论6/19 有一篇论文提出了隐藏锚点hidden anchors概念解释了为什么让 AI 模型相互辩论能提升推理质量。之前我们知道什么经验上“多智能体辩论”multi-agent debate确实能提升推理质量——LangChain / AutoGen 都有实现。但为什么有效没人说清楚。现在我们知道了什么论文发现智能体在审议中维持内部信念不受同伴压力影响——不是谁声音大听谁的审议后的信心水平可超越任何单个智能体的起始值——打破了经典共识理论的数学规则判断审议是否有效的可操作标准检测恢复的锚点是否预测后续运行对 Agent 设计的启示当前大多数 Agent 的反思是单智能体内省——让同一个 Agent 自己检查自己的输出。这篇论文提供了升级路径单智能体内省 → 双 Agent 审议一个执行者 一个挑战者挑战者不需要更强只需要视角不同——比如执行者关注完成任务挑战者关注是否违反红线。5. Agent 评估从事后验收到设计时约束6/20 美团 LongCat 团队连发 6 篇论文最值得关注的是两个评估基准WBench交互式视频世界模型的多轮评估之前评估视频生成模型是单轮输入→单轮输出。WBench 把维度升级到多轮交互——模型能不能在交互中保持一致性LARYBench具身 AI 的ImageNet发现一个反直觉的结论通用视觉模型在动作泛化和控制精度上持续超越专用具身 AI 专家模型。General 365AI 推理能力评估对 26 个主流模型测试最强模型 Gemini 3 Pro 准确率仅 62.8%大多数模型未达 60% 及格线。核心洞察这三个评估基准共同指向一个设计原则评估基准应该先于系统设计存在。不是做完后检查而是设计时就定义验收标准。这正是 TDD测试驱动开发的思想在 Agent 工程中的映射——Agent-Driven Development 的正确姿势是 ADDAssessment-Driven Development。6. 三天汇总7 个趋势信号趋势信号强度对 Agent 架构的影响长上下文从营销数字变工程可用链式 Agent 执行不再被上下文截断记忆系统从全量注入走向按需检索Memory 路由层是下一个必备组件Agent 治理从红线清单走向形式化策略道义策略引擎 可机器执行的法治多智能体审议有了数学基础双 Agent 审议模式可替代单智能体内省评估基准密集发布评估从事后走向设计时向量数据库进程内化本地部署 Agent 不再需要外部向量服务知识提取自动化论文→结构化知识→入库的全自动流水线7. 我的行动清单基于这三天的学习我给自己的 Agent 架构列了以下优先级优先级行动项参考来源P0引入 Memory 路由层全量注入 → 向量检索 Top-Kcodebase-memory-mcp zvecP1把红线清单编码为道义策略Permission/Obligation/Prohibition 三分类AgenticReiP1建立 Agent 行为评估基准定义合格 Agent的量化标准WBench / LARYBench / General 365P2双 Agent 审议模式执行者 挑战者替代单智能体内省隐藏锚点论文P2论文→结构化知识自动入库流水线Hyper-Extract paper-digestP3GLM-5.2 本地部署评估长程 Agent 任务替代方案智谱 GLM-5.2写在最后三天 15 条追踪如果只用一句话总结AI Agent 工程正在从拼 prompt进入拼基础设施的时代。prompt 决定了 Agent 的天花板基础设施决定了 Agent 的地板。当所有人都在优化 prompt 时真正的差异化在记忆系统、治理框架和评估基准——这些才是 Agent 能长期可靠运行的根基。追踪范围Hacker News / GitHub Trending / arXiv cs.CL cs.AI / 美团技术团队 / AI Daily Post / 行业官方发布相关阅读CodeBuddy Agent 设计思路深度拆解 — 同期完成的 Agent Harness 工程分析13 家 AI Agent 工程实践对比 — Cursor/Cline/Devin/Manus 等的 prompt 考证