Agent越多,治理越急:企业AI落地的下一个战场
Agent越多治理越急企业AI落地的下一个战场半年之前一家头部消费电子企业的技术负责人告诉我一个数字他们内部用各种Agent平台搭出来的自动化流程已经超过了600个。这个数字仍在以每月两位数的速度增长。有趣的是当他试图统计到底有多少个Agent在跑时没有一个系统能给出准确答案——有些是业务部门自己用低代码平台搭的有些是工程师在IDE里顺手建的还有些是已经离职的同事留下的、至今仍在定时触发但无人维护的脚本型Agent。这不是个例。当大模型让造一个Agent的成本断崖式下降——从过去需要一支工程团队数月交付变成一个人一个下午就能跑通——企业面临的不再是能不能造而是造出来之后怎么办。Agent的供给端已经爆发但治理端几乎是一片空白。一、旧地图找不到新大陆Agent治理为什么不能用IT治理的老办法直觉上这个问题似乎有现成的答案。IT治理我们做了几十年权限体系、变更管理、安全审计、合规检查——把这些流程套到Agent上不就行了但实践很快就会撞墙。传统IT治理的默认假设是**系统的建设和变更是低频、集中、可控的。**一个ERP系统的上线需要立项、评审、开发、测试、UAT周期以季度计。在这个节奏下IT部门有充足的时间在每个节点上设置门禁。Agent的现实恰恰相反。一个业务分析师用自然语言描述需求Agent在几分钟内生成一套查询脚本和报表页面——这在传统IT治理的框架里相当于绕过了需求评审、架构设计、代码审查、安全扫描整整四道关口。不是有人故意违规而是旧流程根本无法匹配新速度。如果坚持按老规矩逐道卡口结果只会有一个要么卡死创新要么把所有人逼到体系外去干活。这就要求一种全新的治理思路。它不是管得更严而是换一种方式管。在2026年亚马逊云科技峰会上行业内对这种新思路给出了一个初步共识——治理需要从控制建设行为转向控制运行行为。两者的关键区别在于前者试图在Agent被造出来之前就审一遍这在人人皆Builder的时代根本不现实后者允许任何人快速构建但在Agent运行的过程中通过可观测性、策略执行和身份鉴权来保证安全。具体来说这种转向至少需要三个能力同时成立。第一是全局可见企业需要一个统一的入口让Agent建设行为自然汇聚而不是靠强制申报——强制申报只会让好用的Agent藏在体系外。一些先行的工具已经在验证这条路Amazon Quick用八个模块打通从数据访问到文档生成的全链路让业务团队情愿在体系内完成工作而非另起炉灶小鹏汽车的灵犀平台基于类似的思路沉淀了700多个Skills、连通400多个API跑完了14万多个工作流且核心阶段成功率超过99.7%。第二是行为可验证不是靠Agent自觉遵守规则而是让规则在Agent的推理之外独立执行。一个客服Agent在Prompt里被告知退款上限100元用户完全可能通过巧妙的话术绕过去但如果Policy层在工具执行前硬性校验参数上限Agent即便被忽悠了也无法越界。同样的逻辑延伸到可追溯性——每一步推理、每一次工具调用都需要留下可回放的记录让黑箱变成透明箱。第三是身份可识别每个Agent需要有独立身份接入企业现有的权限体系。这不是技术细节而是治理的法定基础——出了问题你要知道是哪个Agent、在什么权限下、做了什么操作。从控制建设到控制运行这个转向的本质是把治理从一道事前关卡变成一张事中安全网。它不要求你审每一行代码但要求你能看清每一个动作。二、再往下挖一层Agent的能力本身谁来管前面的讨论解决了一个问题Agent在什么条件下、什么边界内运行。但顺着这条线索往下追问一个更前置的盲区会浮现出来Agent的能力本身——也就是它用的那些Skill——从哪来按什么标准保证质量2026年Skill成了Agent工程领域被讨论最多的词。每个主流平台都在推自己的Skill目录结构每个技术团队都在把自己团队的经验沉淀成Skill。但一个尴尬的现实正在积聚相当一部分Skill写出来之后Agent的表现并没有变好有时甚至变得更差。根因出在大多数人对Skill的认知上。**如果Skill只是一段按固定格式写成的说明书那它和你在系统提示里多塞几条规则没有本质区别。**Skill真正的独特之处在于它是一种可复用、可触发、可评测、可迭代的工程资产——这四个属性缺一个都不算完整的Skill。Google ADK团队提出的五种Skill设计模式——Tool Wrapper让Agent按需成为某个领域的临时专家、Generator用模板保证输出结构、Reviewer将评审流程和评审标准分离、Inversion在信息不足时主动追问而非猜测、Pipeline通过检查点强制复杂流程不跳步——表面上是一套分类法底层揭示的是一个更深的事实Skill的类型应该由它要解决的根本问题决定而不是由你手头有什么知识决定。这里面藏着一个反直觉但至关重要的工程纪律写好的Skill必须做对照评测。每个测试用例跑两遍——一遍带Skill一遍不带。因为模型本身在很多场景下就能做对你以为的Skill起作用了大概率只是基础模型本来就具备的能力。一个完整的评测至少要覆盖四个维度质量通过率变化、过程Skill是否被触发、推理轨迹是否合理、成本Token和时间增量、稳定性多次运行的方差。只凭感觉迭代Skill等同于不跑测试就重构代码——短期看不出问题长期必然积累技术债。**Skill不是Prompt换了件新衣服。它是一个可被版本管理的软件模块有输入输出契约有行为边界验证有迭代记录追踪。**写好一个Skill的真正起点不是打开编辑器写SKILL.md而是先回答三个问题它解决的根本问题是什么它和模型现有能力的差距在哪用什么证据证明它确实填上了这个差距三、技能仓库为什么管Skill这件事需要一个专门的基础设施前面讨论了单个Skill怎么算写好、怎么评测。但一个组织不会只有一个Skill。当Skill数量从几个膨胀到几十上百个问题就不再是怎么写而是怎么管。要理解技能仓库为什么是必然产物需要先回到一个更基本的问题一个Skill到底是什么一个Skill的结构不只是SKILL.md抛开各平台的目录规范差异一个完整的Skill在结构上至少要串联四类元素。指令层SKILL.md/AGENT.md描述什么时候触发、按什么步骤做——它决定Agent在什么场景下激活这个Skill。知识层references/目录下的领域文档、规范清单、检查表提供做的时候依据什么——它把散落在团队文档、代码库和隐性经验中的知识结构化为Agent可以加载的上下文。执行层scripts/目录下的自动化校验脚本负责做完了怎么验证——它将可机械化的检查从Agent的推理链路中剥离出来用确定性代码替代概率性判断。评测层eval/目录下的测试用例和对照基准回答这个Skill到底有没有用——它是在指令、知识、执行三层之上的质量闭环。这四个层次不是平铺的清单而是一条串联链路指令层决定何时触发→知识层提供执行上下文→执行层做确定性校验→评测层闭合反馈。缺任何一层Skill就从工程资产退化为一段增强提示词。资产属性如何建立从一篇文档到一个可交付件有了结构下一步是让Skill具备资产属性。这里的关键区分是一个文件可以被复制一个资产可以被管理。资产属性的建立至少需要四个机制。版本化——不是改了SKILL.md就算更新而是每次变更都有版本号、变更日志和兼容性声明让引用方知道我依赖的Skill变了什么。可发现——当组织里有上百个Skill时没有人能靠口口相传知道数据库设计规范这个Skill到底有没有人已经写过了必须有一个注册中心提供搜索和分类。可评测——每个Skill的对照测试结果需要作为元数据暴露给潜在使用者让这个Skill值不值得引入成为一个数据驱动而非拍脑袋的决策。生命周期管理——一个Skill从草稿→发布→弃用→归档需要全链路的状态追踪否则仓库里将堆满不知道还能不能用的僵尸Skill。有了这四个机制Skill才从某人写了一段好用的提示词升级为组织可复用的工程资产。前者依赖个人记忆传播后者可以被任何授权角色按需发现、评估和引用。权限、安全与性能上规模之后绕不过的三道坎Skill成为共享资产后三个在单机开发阶段几乎不需要考虑的问题会迅速浮出水面。权限控制是第一个。一个Skill可能被前端团队用来生成组件代码也可能被财务团队用来做报表分析。但不是每个Skill都适合所有人用——有些Skill内部封装了对生产数据库的查询能力有些Skill调用了需要特定授权的内部API。谁来定义谁能用哪个Skill这个策略应该由Skill的维护者定义、由平台统一执行而不是在每个Agent的Prompt里手工写访问控制规则。安全审计是第二个。一个Skill被Agent触发时它内部的脚本会执行什么命令它的references会加载哪些外部数据源它的MCP连接会访问哪些系统如果一个Skill封装了对客户数据的批量查询能力安全团队需要知道这个Skill有没有最小化权限执行路径是否可审计调用记录是否可回溯到具体的Agent和人类操作者性能与成本管控是第三个。不同Skill的推理开销天差地别。一个轻量级的代码格式化Skill可能只消耗几百个Token一个需要加载完整领域知识库的需求分析Skill可能一次调用就吃掉几十万Token。当每日调用量达到数百次时哪些Skill是高性能、低成本的哪些是高消耗、低收益的——这个信息必须被量化并暴露给管理侧否则成本会在无人注意的情况下持续膨胀。这三个问题的共同特征在于它们都不是写Skill的人能单独解决的。权限策略需要平台级实施安全审计需要统一的日志和监控体系成本管控需要全局的用量统计——它们属于Skill的外围基础设施而这个基础设施正是技能仓库。技能仓库的必然性回到本章最初的问题当Skill从十几个膨胀到上百个谁来管答案是必然需要一个专门为此设计的基础设施层。技能仓库承担的本质上就是把上述三个维度——结构串联、资产管理、运行保障——内化为平台的系统能力而不是靠每个Skill作者的自觉来维持。在Agent Skill Warehouse的实践中BA-Master、SA-Master、PM-Master三个核心Skillset展示的就是这种内化之后的形态每个Skillset都有明确的结构分层指令→知识→执行→评测的完整链路都有可追溯的资产属性版本化发布、可评测的通过率数据都运行在统一的权限和审计框架下。它们的分工也恰好对应了企业从概念到交付的完整跨度——BA-Master锁定业务范围根目的→需求澄清→结构化PRDSA-Master框定技术边界七维度架构确认PM-Master做跨角色编排。但更值得关注的是它们背后的共性每一个Skillset都把文档从给人看的辅助材料变成了给Agent执行的上下文约束。这不是一个产品功能列表而是一个必然的工程判断当Agent的数量和Skill的数量同时进入爆发期组织需要的不是更多Agent或更多Skill而是一套让二者在被治理的前提下高效协作的基础设施。技能仓库就是这张拼图上缺了很久的那一块。结语2026年亚马逊云科技峰会上有一句话被反复提及“Agentic NowGo Build”——号召每个人都去造。但热闹过后清醒的企业已经在补后半句Go Govern——去治理。造Agent的门槛趋近于零意味着竞争门槛从谁能造转移到了谁能管。谁先建成一套让Agent可见、可验证、可追责的治理体系谁就在下一阶段的AI竞争中拿到了结构性优势。但这不仅是管Agent怎么运行的问题。治理的更深一层是管Agent能用什么样的能力——Skill的设计规范、评测标准和仓库化管理构成了治理体系的能力底座。二者叠加才是一张完整的企业AI基础设施地图。Agent Skill Warehouse正在这个方向上搭地基。参考资料人人都是 Builder 的时代企业的真正挑战是怎么管 - InfoQ李文朋理解 Skill 的本质才能写出有效的 Skill - CSDN云计算一哥让小鹏、Kimi和猎豹都爽了一把 - 量子位Agent Skill Warehouse