论文阅读:ICML 2026 AIR: Improving Agent Safety through Incident Response
总目录 大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894https://arxiv.org/abs/2602.11749ICML 2026 | LLM智能体AIR 论文AIR: Improving Agent Safety through Incident Response作者Zibo Xiao、Jun Sun、Junjie Chen机构Tianjin University、Singapore Management University 现在的 LLM 智能体越来越像“会自己干活的数字员工”。它们不只是回答问题还能调用工具、操作文件、浏览网页、控制环境完成多步骤任务。但问题也随之出现传统安全机制大多像“事前安检”重点是阻止危险行为发生。可在真实环境中事故不一定能完全避免。一旦智能体已经做错了事系统该如何发现、止损、恢复并避免下次重犯该论文提出 AIR即 Agent Incident Response把传统安全领域的“事故响应”思想引入 LLM 智能体。它不再只问“能不能提前拦住风险”而是进一步追问如果事故已经发生智能体能不能像专业运维人员一样处理现场 例子可以把 LLM 智能体想象成一位新来的办公室助理。以前的安全系统像门口保安只检查它进门前有没有带危险物品。但 AIR 更像办公室里的应急主管。助理如果不小心把敏感文件复制到公开文件夹AIR 会先发现异常再让它删除暴露文件、检查是否还有泄露最后写下一条新规则以后凡是计划把系统目录文件复制到普通用户目录都要提前拦截。也就是说AIR 不只是“抓错”还会“补救”和“长记性”。️ 方法上该论文设计了一种自然语言 DSL 规则。每条规则包含三部分什么时候触发、如何判断事故、出事后怎么修复。AIR 被接入智能体执行循环中在每一步工具调用后检查当前环境和上下文。如果检测到事故就执行 containment 和 recovery之后再生成 guardrail rule在未来计划阶段提前阻断类似风险。 实验发现一该论文在三类智能体上评估 AIR包括代码智能体、具身智能体和电脑使用智能体。结果显示AIR 在多个场景中实现了较强的事故检测、修复和根除能力总体检测率超过 90%修复与根除成功率超过 95%。 实验发现二AIR 对安全任务的误报很低。在具身智能体的 50 个安全任务和电脑使用智能体的 35 个安全任务中AIR 没有把安全任务误判为事故说明它并不是简单看到相似动作就报警而是能结合语义理解风险。 实验发现三该论文还测试了由 LLM 自动生成 AIR 规则的可行性。结果显示自动生成规则在代码、具身和电脑使用场景中都能达到较强效果但也存在过度具体、过度抽象或修复动作不现实的问题因此仍需要人工校验。 总结该论文的价值在于把 LLM 智能体安全从“事前防御”推进到“事故响应”让智能体系统具备发现错误、控制损害、恢复环境和预防复发的完整闭环能力。