【AI 杂谈】Agent的信任壕沟:为什么越强的Agent越没人敢用?
Agent的信任壕沟为什么越强的Agent越没人敢用信号六家公司不约而同在回答同一个问题2026年6月下旬六家公司的六条信息各自独立出现彼此之间未必通气但它们共同指向了一件事。Claude Code的工程一号位Fiona Fung在访谈里说该算ROI了“狂烧Token的时代已经过了”。她补了一句更值得琢磨的话——“信任是AI公司最难自动化的东西”几乎同期微软在Build 2026上发布了Microsoft Scout——一款被归类为Autopilot的新型常驻智能体。从Copilot到Autopilot产品形态只差一个词但意思差了十万八千里。Copilot在旁边给建议审完了人决定做不做Autopilot这个新品类替你做你只需要看着。一字之差越过的不是功能是信任。本月上旬Build大会上GitHub发布了Copilot App把分散在十几个地方的Agent汇集到一个入口。你以为这是在解决太散了不好找的问题——不是。它的底层问题是当一个人同时跑着五个Agent他实际上在管理五个半自主的数字员工。管理半径不够用了。5月下旬GitLab 19.0把Agentic AI放进了凭证管理和供应链安全。这不是技术升级新闻这是一个信号Agent的犯错半径从写错一行代码扩大到了泄露生产凭证。过去Agent出问题是bug现在Agent出问题是事故。阿里云在同一时期讲了一个新概念Agent不是云的一个用户而是核心用户。这意味着云计算的身份模型得改了——过去是人操作资源将来是人授权Agent、Agent操作资源。中间多出来的这一层整个身份体系还没准备好。还有一条最容易被当成纯技术方案略过的信息——Uber和Auth0在联合设计多Agent之间的身份传播架构。他们在回答一个比前面所有问题都更根本的东西Agent到底是我还是它如果是我的延伸它可以继承我的权限如果是独立实体它需要自己的身份、权限和责任边界。这个问题今天不回答上面所有架构都是建在沙子上。六条信息六个维度——经济层、产品层、体验层、安全层、基础设施层、身份层。各自在各自的领域独立作业撞上的是同一堵墙。这堵墙不是Agent不够强。恰恰相反它强到我们已经没有制度框架来信任它了。解剖信任壕沟的五层结构Agent撞上的不是技术墙是制度墙。这堵墙有五层不是并列关系是递进依赖——上一层不稳下面全白搭。第一层身份。Agent是我还是它这是所有信任问题的起点。Uber和Auth0干的事看起来是工程问题本质上是治理问题。当一个Agent登录你的GitHub、审批你的合并请求、管理你的生产凭证它到底是以你的工具身份还是以一个被授权角色的身份这个区别直接决定出事了找谁。如果是工具出问题你全责——就跟锤子砸了手不能怪锤子。如果是被授权的角色那就涉及授权边界、越权行为、代理责任——一套跟法人治理差不多复杂的东西。Amazon的Alexa团队内部有一个准则每个Agent在系统里都有一个独立ID不与人类用户共享命名空间。为什么不是为了技术方便是审计需要——事后你必须能分清屏幕那头的每一次操作到底是谁干的来源AWS Agentic AI基础设施实践系列。注此细节源于AWS公开实践文档非单一演讲内容。第二层授权。我给了它多大权力边界在哪解决了谁下一个是能干嘛。微软从Copilot到Autopilot的进化不是随便起的。自动驾驶行业有一个L1到L5的分级体系——L1是辅助驾驶人主导L5是无人驾驶人完全放手。Agent缺的就是这样一个被普遍接受的信任分级。参考微软Scout的设计方向和行业讨论可以提炼出一个信任梯度的参考结构建议模式Agent给方案人决定→ 确认模式Agent执行关键操作需人确认→ 自动模式Agent在边界内自主执行事后通知。这不是技术路径是信任梯度。不是给不给权限的二进制问题而是先给1%证明自己再给2%的渐进逻辑。第三层责任。Agent做错了谁负责Claude Code工程一号位谈ROI的时候很多人听的是价格。但ROI算不出来根源不在Token贵。根源在于你不敢把足够多的任务闭环交给Agent因为没人回答搞砸了算谁的。API7.ai创始人温铭用几百亿Token重写生产级网关后总结出AI的能力已经溢出真正跟不上的是人来源InfoQ6月26日。什么叫人跟不上不是代码写不出来是责任体系跟不上。Agent可以生成代码、修改配置、更新依赖——每一步都可能引入风险但不存在对应的Agent操作责任矩阵。传统的变更管理流程里审批人、执行人、验证人都有明确的人名。Agent塞进去之后这一套人名逻辑就碎了。第四层审计。发生了什么事后我能查吗GitLab 19.0把Agent放进安全体系的同时加了一套Agent操作审计日志。这是对的但远远不够。今天的Agent决策链是黑箱——它改了文件、发了PR、合并了代码你拿到的是一个结果不是一段你读得懂的推理过程。审计不是存日志是可复现性。人做了错事你可以把他叫过来问当时怎么想的。Agent的想法是一堆权重和概率分布没人看得懂。这就是为什么可解释性不是一个学术趣味问题——它直接关系到审计能不能落地。第五层传导。多Agent之间信任如何复合这才是最被低估的一层也是这些信息横向串起来之后才浮现的。单个Agent的身份、授权、责任、审计已经够复杂了。但当多个Agent组成一条流水线——Agent A写完代码推给Agent B做代码审查Agent B通过后触发Agent C部署——信任在不同Agent之间怎么传导A的权限能不能被B继承如果流水线中间出了事故是A的错、B没拦住还是C部署流程有问题阿里云说Agent是核心云用户Uber在画多Agent身份传播的架构图这两个动作放在一起看说明一件事信任传导不是一个未来才需要担心的理论问题。Agent流水线已经在生产环境跑了。信任传递机制还没开始设计。这不是单靠写更多代码能解决的。行业目前在做的全在第一条线上——让Agent更强、更快、更准。但Agent已经够强了。五层信任壕沟一层比一层深一层比一层更没人碰。出路信任不是靠演示建立的Agent行业的演示永远在回答同一个问题你看它能做多少事。但信任从来不是看演示建立的。信任是你在被允许犯错、被记录过程、被清晰追责的过程中一点一点积累出来的。从二进制的开关到渐进的信任梯度。上一次面对能不能信任机器的问题是在自动驾驶行业。没有任何一个自动驾驶公司跳出来说我们的车不需要方向盘。所有人都走了渐进路线L1辅助、L2部分自动化、L3有条件自动化——每升一级人后退一步机器前进一步。Agent行业现在面对的不是要不要给Agent权限而是给它1%的权限它能证明自己值得2%吗。微软Scout的Autopilot模式和人工确认机制提供了一个产品层面的方向但它只是一个开始。需要的不只是产品功能而是一套可被独立审计的信任成熟度模型——有点像SOC 2合规但不是为人类组织设计的是为人-Agent混合团队的运作模式设计的。可观测性必须先于自主性。在Agent学会自主做事之前它必须先学会解释自己。这个要求不新鲜——任何一个人类团队的新人加入前三个月都是你在做什么我都看着、都问。Agent跳过了这个阶段一上来就是个不解释的熟手这才是让人不踏实的地方。技术上做得到。OpenAI的论文已经证明模型可以生成推理链来源OpenAI o1 System Card。问题在于推理链不等于可审计的解释——前者是模型自言自语后者是面向人类的可追溯逻辑。GitLab 19.0在Agent操作审计上是起步了但整个行业需要从Agent设计的第一天就把可解释性作为必选项而不是加装包。信任壕沟是新的护城河。Claude Code工程一号位那句话值得再拿出来读一遍“信任是AI公司最难自动化的东西。”反过来理解这句话谁先建立信任体系谁就掌握了下一个时代的护城河。今天Agent的市场竞争是谁的模型更强但模型之间的差距在肉眼可见地缩小。当大家的Agent都能写出差不多的代码、改出差不多的配置时用户选谁选那个它干事我敢背锅的。这不是道德选择是理性选择——因为不确定性最低。信任壕沟不是Agent行业的末日审判。你进到一条真正的战壕里它保护你不被轰炸。跨过信任壕沟的Agent才是从实验室走进生产系统的Agent。跨不过去的就只是另一个做得不错的Demo。区别不在能力在你敢不敢把钥匙给它。