论文阅读：ICML 2026 AIR: Improving Agent Safety through Incident Response-尧图建网站

总目录大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894https://arxiv.org/abs/2602.11749ICML 2026 | LLM智能体AIR 论文AIR: Improving Agent Safety through Incident Response作者Zibo Xiao、Jun Sun、Junjie Chen机构Tianjin University、Singapore Management University 现在的 LLM 智能体越来越像“会自己干活的数字员工”。它们不只是回答问题还能调用工具、操作文件、浏览网页、控制环境完成多步骤任务。但问题也随之出现传统安全机制大多像“事前安检”重点是阻止危险行为发生。可在真实环境中事故不一定能完全避免。一旦智能体已经做错了事系统该如何发现、止损、恢复并避免下次重犯该论文提出 AIR即 Agent Incident Response把传统安全领域的“事故响应”思想引入 LLM 智能体。它不再只问“能不能提前拦住风险”而是进一步追问如果事故已经发生智能体能不能像专业运维人员一样处理现场例子可以把 LLM 智能体想象成一位新来的办公室助理。以前的安全系统像门口保安只检查它进门前有没有带危险物品。但 AIR 更像办公室里的应急主管。助理如果不小心把敏感文件复制到公开文件夹AIR 会先发现异常再让它删除暴露文件、检查是否还有泄露最后写下一条新规则以后凡是计划把系统目录文件复制到普通用户目录都要提前拦截。也就是说AIR 不只是“抓错”还会“补救”和“长记性”。️ 方法上该论文设计了一种自然语言 DSL 规则。每条规则包含三部分什么时候触发、如何判断事故、出事后怎么修复。AIR 被接入智能体执行循环中在每一步工具调用后检查当前环境和上下文。如果检测到事故就执行 containment 和 recovery之后再生成 guardrail rule在未来计划阶段提前阻断类似风险。实验发现一该论文在三类智能体上评估 AIR包括代码智能体、具身智能体和电脑使用智能体。结果显示AIR 在多个场景中实现了较强的事故检测、修复和根除能力总体检测率超过 90%修复与根除成功率超过 95%。实验发现二AIR 对安全任务的误报很低。在具身智能体的 50 个安全任务和电脑使用智能体的 35 个安全任务中AIR 没有把安全任务误判为事故说明它并不是简单看到相似动作就报警而是能结合语义理解风险。实验发现三该论文还测试了由 LLM 自动生成 AIR 规则的可行性。结果显示自动生成规则在代码、具身和电脑使用场景中都能达到较强效果但也存在过度具体、过度抽象或修复动作不现实的问题因此仍需要人工校验。总结该论文的价值在于把 LLM 智能体安全从“事前防御”推进到“事故响应”让智能体系统具备发现错误、控制损害、恢复环境和预防复发的完整闭环能力。

相关新闻

Subtree Minimum Query

二叉树算法实战教程

MANO手部模型完整指南：如何用Python实现逼真3D手部建模

最新新闻

【毕业设计】基于 SpringBoot 的防灾应急物资进销存管理系统的设计与实现 基于 SpringBoot 的应急物资调度供应管控系统(源码+文档+远程调试，全bao定制等)

为什么你的exclude不生效？IDEA中Maven Helper的4种高阶用法，含官方未文档化的force-resolve参数

12-EBEVTRACK：多目标追踪的估算鸟瞰视图

别再“等数据完美”：如何用AI-ITSM打破工单的低效循环？

Java计算机毕设之基于 SpringBoot 的应急物资储备与发放管理系统的设计与实现 基于 SpringBoot 的灾害应急物资供应链管理系统(完整前后端代码+说明文档+LW，调试定制等）

【课程设计/毕业设计】基于 SpringBoot 的应急物资智能调配管理系统的设计与实现 基于 SpringBoot 的突发情况应急物资保障管理系统【附源码、数据库、万字文档】

日新闻

Selenium元素定位全解析：从八大方法到实战策略

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

UnblockNeteaseMusic终极教程：3分钟解锁网易云音乐灰色歌曲的完整方案

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

【毕业设计】基于 SpringBoot 的防灾应急物资进销存管理系统的设计与实现基于 SpringBoot 的应急物资调度供应管控系统(源码+文档+远程调试，全bao定制等)

Java计算机毕设之基于 SpringBoot 的应急物资储备与发放管理系统的设计与实现基于 SpringBoot 的灾害应急物资供应链管理系统(完整前后端代码+说明文档+LW，调试定制等）

【课程设计/毕业设计】基于 SpringBoot 的应急物资智能调配管理系统的设计与实现基于 SpringBoot 的突发情况应急物资保障管理系统【附源码、数据库、万字文档】