企业智能体的下半场,如何让智能体越用越聪明?
当我们谈 Agent 进化的时候通常涵盖两类场景。一种是员工办公场景通过 Coding Agent 或通用 Agent 的记忆、协作风格、用户画像等能力让 Agent 越用越聪明、越用越懂用户。另一种是企业的业务场景比如企业对外提供的客服 Agent对内提供智能分析的 Data Agent。关于前者Anthropic 发布的 Economic Index 给过一个有意思的对照使用 Claude 6 个月以上的老用户对话成功率比新用户高 3–5 个百分点。可见Coding Agent、通用 Agent 已经在加速进化用户越用越喜欢。而后者仍处于各个企业手搓观测、评估、优化各自积累业务实践经验的阶段。本文要聊的是后者。01企业手搓 Agent 进化飞轮的现状进化飞轮通常分为数据采集、数据集构建、效果评估、进化资产沉淀4个步骤。虽然模型和 Agent 进化飞轮的流水线类似但影响 Agent 行为的因素更多。模型任务是指一次模型的调用包括对模型的输入和模型的输出。Agent 任务则是一条带拓扑结构的线甚至是一张网络图因为除了模型调用还有检索、规划、工具调用、浏览器访问、中间状态、反思和决策、回退甚至还有多个并行子任务等。由于影响 Agent 行为的因素更多导致进化飞轮带来的新工程难点是以往的 LLM-as-Judge 的范式所难以应对的。数据采集难单点变拓扑schema 不再稳定LLM-as-Judge 的范式采集的是 (prompt, completion) 二元组schema 干净存日志就够。Agent 行为评估要采集的是一条 trajectory执行轨迹每一步的输入输出形状都不一样。检索返回 chunk 列表工具返回结构化 JSON浏览器返回 DOM 片段模型返回 token 流要把这些异构事件按时序和因果关系串起来不丢中间状态、不丢父子调用关系再加上 token 用量、延迟、错误码存储和埋点成本是 LLM-as-Judge 的几十倍。另外OpenTelemetry 的 GenAI semconv 还在草案阶段目前没有事实标准企业基本都在自己造轮子。数据集构建难一条轨迹是不是好的数据样本定义更难LLM-as-Judge 从日志里挑 prompt-completion 对按 token 长度、置信度、人工反馈一筛就行。trajectory执行轨迹包括规划它怎么把任务拆成子目标的检索grep 了哪些文件、搜了哪些关键词工具调用每一次 git / grep / 测试运行的入参、出参、耗时中间状态每一步执行完它对任务的理解更新了什么反思 / 决策分支它在哪一步改了主意为什么改模型调用每次调 LLM 的 prompt、response、token 消耗最终输出那个 diff 提交把这一整串顺序串起来就是这次任务的 Trajectory。但是这条轨迹是好样本吗人肉很难定义。例如最终结果对但中间走了三个错误工具。最终结果错但前 5 步推理是对的这 5 步要不要单独抽出来当训练信号trajectory 里到包含了返回的真实业务数据订单、客户名、内部接口响应脱敏不是字符串替换那么简单要做结构化脱敏才能进数据集等等。效果评估难单点打分失效需要分层对于 LLM-as-Judge都是对一个点打分。Agent 时代要分三层进行评估step-level每一步的工具调用是否正确、trajectory-level整条路径是否合理有没有绕路、回退、死循环、outcome-level最终交付是否满足要求。三层结论可能完全不一致。沉淀进化资产难经验很难被标准化模型的资产形态非常清楚SFT 数据、DPO pair、LoRA 权重行业有共识工具链成熟。Agent 时代的资产形态目前还在分化期可以回流成 prompt 改进可以构造成 few-shot 经验库可以做成 episodic memory还可以抽成可复用的 skill 或子流程。每一种形态消化 trajectory 的方式都不一样也都没有像模型权重那样的统一容器。这导致企业即使把前三步做完最后一步资产怎么落、落到哪、谁来消费往往还是个待定项。因此Agent 上线了、服务的用户越来越多了但企业拥有的可进化资产可能并没有变多。这已经成为企业智能体进化的真实状态。02阿里云 AgentLoop 的实践AgentLoop 是阿里云推出的面向企业级智能体的一站式自进化平台提供 Agent 全栈观测与审计、Agent 评估与实验、Agent 资产管理与持续优化等核心能力帮助企业构建智能体进化数据飞轮。针对企业智能体构建进化飞轮的难点AgentLoop 的应对方案是第一环全栈观测分析完整的 Trajectory 执行轨迹AgentLoop 通过 LoongSuite 的开源自动插桩框架将采集对象从二元组升级成完整的 Trajectory执行轨迹。LoongSuite 融合了三层语义规范OTel GenAI 社区标准含阿里贡献的 STEP / MCP span 扩展、AgentLoop 产品侧数据契约、以及采集层自有扩展session / turn / step / cost 专属字段总计覆盖 55 个 GenAI 语义字段。在第三方源码逐行对比中LoongSuite 有效字段覆盖率 84%竞品最高仅 51%。LoongSuite 采集到的 Trajectory 提供四类交叉印证的诊断视图调用树逐层下钻 Span 耗时占比、推理轨迹还原 ReAct 思考-工具-观察序列检测无效循环、时序线区分串行/并行与阻塞等待、链路拓扑图还原全局调用关系。一条 23 秒的慢请求通过这四层视图交叉定位可以精确到某一轮 LLM 多步冗余循环调用这个粒度。第二环Agent Ontology Pipeline让观测数据图谱化自动构建高质量数据集只有 Trajectory 还不够不然采集到的观测数据仍然是孤立的元数据是一条条互不关联的 span。AgentLoop 在 Trajectory 之上做了第二件事基于 UModel 构建面向 Agent 实体关系的拓扑称为 Agent Ontology。它的作用是把采集到的观测数据图谱化自动发现 Agent → Tool → Model 之间的实体关系拓扑打破数据孤岛实现确定性关联与推理分析。有了 Agent Ontology每一条 Trajectory 就是一张有拓扑结构的关系图。哪个 Agent 调了哪些工具、哪些工具背后调了哪个模型、哪一步是关键决策节点、哪一步只是辅助。运维和算法团队能用 Agent 视角看问题不需要在扁平日志里大海捞针。在 Ontology 之上AgentLoop 再叠加了一条自动化 PipelineTrace2Dataset。它的逻辑是线上全量运行时数据Trajectory通过 Pipeline 编排数据源接入 → 数据降维过滤 / 去重 / 采样 → 特征提取意图 / 难度 / 场景标签 → AI 审核与改写 → 写入目标数据集从而自动构建成 Golden Dataset高质量经典样本和 BadCase Dataset典型失败案例。整体上Pipeline 可节省 90% 以上的 Token 消耗与时间成本。第三环内置标准化评估器准确评价每个 Agent 的真实表现数据采集了、数据集也构建了下一个问题是做评估。Meta AI 与 KAUST 团队在《Agent-as-a-Judge: Evaluate Agents with Agents》论文中 ****[1]构造了 DevAI 基准55 个真实 AI 开发任务365 条层级化用户需求要求评估方不仅看最终交付物还要核对中间每一步是否满足结构化需求。论文在同一基准上同时跑了人类专家、LLM-as-a-Judge、Agent-as-a-Judge 三种评估方式结果是与人类专家评估的一致率从 LLM-Judge 的约 65% 提升到了 Agent-Judge 的 90%。但是该报告也提到美国人工评估的成本约 86 美元/小时远高于 LLM-as-a-Judge、Agent-as-a-Judge。Agent-as-a-Judge 评估成本仅为人工的 1/30。因此 AgentLoop 采用了 Agent-as-a-Judge 评估器可以理解为将 Agent-as-a-Judge 这一评估范式产品化了。评估器本身就是一个 Agent基于大模型做规划、调用工具、回放轨迹、并基于中间状态做多步推理来做出判断。AgentLoop 提供了13个标准评估器包括 Agent 任务完成度、Agent 回答证据支持度、Agent 工具调用成功率等并支持自定义模式。这些评估器支持问答准确性多轮事实核验 幻觉检测Skill 执行质量工具调用链验证与结果校验意图达成度复杂任务目标满足评估安全合规越权 / 敏感信息 / 有害内容检测上下文一致性跨轮次记忆与状态追踪业务自定义用户可通过自定义 Prompt Skill Tool 构建面向特定业务场景的评估器总的来看AgentLoop 通过全量的自动化数据采集、Agent Ontology、自动化构建数据集的 Pipeline、Agent-as-a-Judge 范式的评估 Agent实现了持续评估是进化飞轮的基础设施。第四环记忆库与经验库智能体进化的上下文工程但进化飞轮中全栈数据采集、拓扑认知、评估本质只是一个对 Agent 效果的打分器通过打分将智能体的进化资产去提升智能体的效果才是构建飞轮的最终目的。AgentLoop 把这个问题拆成两个路径路径一数据驱动的 Agent 调优。从评估结果中自动收集 BadCase → 失败模式聚类 → Agent 端到端改写Prompt / Skill / 工具链协同改写 → 回归测试验证提升。这是快速拉升基线的路径见效速度快但依赖人工迭代节奏。路径二Trajectory 驱动的自进化闭环。Agent 运行时自动记录完整调用轨迹与上下文、从成功/失败 Trajectory 中自动提取可复用经验规则、经验规则按需注入 Agent 上下文Just-in-Time 加载、评估注入后效果持续迭代优化经验库。要将以上两个路径产品化AgentLoop 提供记忆库与经验库这两个独立组件。其中记忆库覆盖事实、情节、摘要和自定义四种策略把用户偏好和历史上下文沉淀到一个长期可检索层中下一次遇到类似请求时会自动注入。经验库则聚焦成功模式的提取与复用通过和各行业的业务专家共建泛化成经验规则归纳为长期记忆或 Skill当相似场景再次出现时会自动激活。AgentLoop 的记忆库和经验库参考了业内在自进化领域的成功实践包括 Hermes 的轨迹自我反思[2]、DreamGym 合成经验回放的 RL 训练框架[3]、Reflexion 的 episodic reflection失败经验回灌机制[4]****。因此全栈观测采集完整 Trajectory、Agent Ontology 让数据图谱化、Pipeline 自动构建数据集、标准化评估器准确评价真实表现、记忆库/经验库把好的经验反哺回 Agent 上下文。这就构成了一个自运转的进化飞轮。03进化飞轮是企业智能体下半场的发令枪由于进化飞轮基础设施还不成熟评估结果转化为智能体进化资产依赖行业经验导致大部分企业智能体出现上线即落后的窘境难以实现让智能体越用越聪明的完美预期。LangChain 的《State of Agent Engineering》中发现有 22.8% 的生产团队完全不做评估离线评估覆盖只有 52.4%线上评估更是只有 37.3%32% 的团队把质量列为生产环境的头号障碍。Databricks 的《State of AI Agents》里给出了一组数据接入评估的企业数量仅有接入治理的企业数量的17%。大部分企业面临的现实困境是缺少进化飞轮的基础设施就不敢放量无法放量就没有观测数据没有数据就无法进化的恶性循环中。阿里云 AgentLoop 希望通过完善的进化飞轮基础设施携手企业共同开启企业智能体的下半场。AgentLoop 正在邀测期欢迎加入用户服务钉群(群号168330022816)申请邀测资格。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】