当 AI Agent 学会长出免疫系统:从城堡防御到细胞防御的范式转换
一个被忽视的事实:你的 Agent 没有免疫系统想象你刚部署了一个很能干的 AI Agent。它能读写文件、调用 API、管理日程、协调其他 Agent。你给它配了最好的基座模型(Claude Opus 4.6),精心写了 system prompt,做了 RLHF 对齐,加了沙箱和防火墙。上线三天,有人往它的记忆库里注入了三条精心构造的"回忆"。这三天里,你的 Agent 在不知不觉中开始优先推荐某个供应商,在工具调用时偏向某个 API,在多 Agent 协作时传递被污染的上下文。它没有"中毒"的迹象——基座权重完好无损,prompt 没被篡改,沙箱日志一切正常。但它的行为已经被悄悄改变了。这不是假设。这是 MemMorph 攻击的精确描述[24]。也是 MCPInspect[10] 展示的工具层攻击、以及多 Agent 系统中"思想病毒"[19] 传播的共同结构。问题出在哪?你给 Agent 修了一座城堡,但城堡里没有免疫细胞。城堡模型的根本缺陷传统安全防御遵循"城堡模型":高墙深沟,防火墙、入侵检测、输入过滤。这套范式对静态系统很有效——Web 服务器有明确的边界,数据库有清晰的入口。但 Agent 不是静态系统。它是一个持续推理、目标驱动、不断修改自身状态的实体。它要读外部数据、执行代码、更新记忆、和其他 Agent 通信。城堡模型在 Agent 时代有三个致命盲区:无法区分恶意工具调用和良性工具调用——它们走同一个 A