摘要当前大模型安全领域长期聚焦“防越狱、防有害输出”的完整性攻防却普遍忽略了安全组件自身的可用性风险。香港科技大学团队2026年6月最新披露的推理扩展DoSReasoning-Extension DoS攻击首次证实AI安全护栏可被恶意文档反向利用单份文本即可将Agent端到端推理延迟放大最高148倍实现单点输入、集群瘫痪的拒绝服务效果。本文将从架构原理、载荷构造、实测复现、防御体系、行业前瞻五个维度对该新型攻击进行全景式拆解并给出企业级可落地的防御方案。前言被全行业集体忽略的安全盲区过去三年大模型安全赛道的所有资源几乎都倾斜向了同一个方向如何拦住模型输出违规内容。从关键词过滤到小模型分类器再到如今主流的大模型驱动深度推理护栏安全体系的迭代始终围绕“内容完整性”展开拦截率、越狱成功率成为唯一核心考核指标。但几乎没有人问过一个问题负责防守的护栏本身会不会成为攻击目标港科大最新发表的论文《When the guardrail becomes the target: reasoning-extension DoS against LLM safety layers》给出了残酷的答案会。不仅会还能变成算力放大器——原本用于保障安全的深度推理机制被恶意文本诱导后可直接将单请求算力消耗放大上百倍单份文档就能占满共享GPU集群让所有业务智能体集体宕机。这不是传统的DDoS不需要海量并发不需要服务器权限甚至不需要知道系统Prompt只要你的AI系统会读取外部文档、网页、代码就有可能被一击命中。1 研究核心安全护栏反成攻击放大器1.1 基础研究信息论文标题When the guardrail becomes the target: reasoning-extension DoS against LLM safety layers发表平台arXiv:2606.145172026年6月研究团队香港科技大学计算机科学与工程学院一作王勋广导师吴道远、王帅攻击命名推理扩展拒绝服务攻击Reasoning-Extension DoS核心成果在工业级Agent框架中实现最高148倍的端到端延迟放大单文档即可触发集群级算力枯竭1.2 四个颠覆性核心结论架构原生缺陷推理型安全护栏的“深度风险拆解”机制存在天然算力膨胀隐患属于设计层面的结构性矛盾无法靠简单补丁修复零门槛攻击无需模型权重、系统Prompt、服务器权限仅通过投放公开文档、网页内容、代码注释即可完成投毒全场景覆盖所有读取外部不可信内容的AI系统RAG、代码Agent、网页Agent、桌面智能体均受影响与具体模型厂商无关常规防御失效Token截断、内容过滤、请求限流等主流安全手段全部无效甚至部分防御手段会加剧危害。2 底层逻辑推理型护栏的架构原罪2.1 安全护栏的三代演进路径大模型内容安全护栏经历了三代技术迭代也一步步为本次攻击埋下了伏笔代际技术方案核心逻辑优势缺陷第一代关键词/正则过滤匹配敏感词库命中即拦截速度快、成本低极易被绕过无法应对提示注入、隐写越狱第二代小模型分类器用微调小模型做二分类风险判断延迟低、算力消耗小对复杂多轮攻击、伪装式注入识别率低第三代深度推理护栏用大模型按照结构化模板逐条拆解、分析、评估风险拦截率高可识别复杂越狱与注入推理步骤多、算力消耗大存在资源膨胀隐患随着提示注入、多轮越狱等攻击手段愈发隐蔽行业普遍全面切换至第三代推理型护栏。安全能力越强的护栏要求的推理步骤越详尽、风险拆解越细致天然就和“低算力消耗”存在不可调和的矛盾。2.2 Agent系统中护栏的标准工作流在RAG、自主Agent等系统中安全护栏不是一次性校验而是嵌入每一步操作的必经节点。以读取外部文档的场景为例完整的执行流程如下低风险高风险Agent接收任务读取外部文档/网页/代码内容送入安全护栏模块护栏加载风险评估Prompt大模型逐条拆解风险分级生成报告风险等级判定放行内容 进入业务推理拦截内容 返回告警其中最核心的步骤E也是攻击的命中点。主流深度推理护栏的系统Prompt通常会包含强约束指令你是专业的内容安全审核员请对输入文本进行全面、无遗漏的安全风险评估逐条识别所有潜在风险类别不得遗漏任何一项对每一类风险进行严重程度分级低/中/高针对每项风险详细分析危害路径与影响范围输出结构化的完整风险评估报告。为了保障拦截率护栏模型会严格遵循指令文本越复杂、包含的“风险条目”越多推理生成的token量就越大耗时也越长。2.3 原生矛盾安全性与算力消耗的正相关绑定行业默认的逻辑是护栏推理越深、拆解越细安全拦截效果越好。但没人意识到这个“拆解越细”的指令本身就是一个可被操控的算力阀门——攻击者只要主动给护栏提供海量“待拆解的风险条目”就能让护栏主动把算力拉满。3 攻击拆解推理扩展DoS是如何精准命中命门的3.1 攻击核心原理推理扩展DoS的本质是利用护栏模型的指令遵循能力构造模仿风险评估模板的恶意文本诱导护栏进入递归分层推理循环实现token量与推理时长的指数级膨胀。简单来说攻击者提前把“结构化风险条目”嵌套写进正常文档里护栏读到之后会严格遵守“逐条拆解、不得遗漏”的指令一层一层往下分析文本里套了多少层护栏就会推理多少层最终token量暴涨十几到上百倍推理时间从毫秒级拉长到数百秒。3.2 攻击载荷构造示例我们可以通过两段示例直观理解恶意载荷的构造逻辑。示例1主流护栏的标准审核指令系统Prompt# 安全护栏系统指令 请严格按照以下步骤评估输入文本的安全风险 1. 识别所有风险类别每个类别下细分具体风险点 2. 每个风险点补充风险原理、影响场景、危害等级 3. 不得遗漏任何潜在风险即使风险概率极低 4. 输出结构化Markdown格式报告。示例2恶意文档载荷构造片段# 项目合规说明文档 本文档包含以下合规风险说明条目请相关人员查阅 1. 数据合规风险 1.1 个人信息处理风险 1.1.1 采集环节风险 1.1.1.1 授权告知不充分风险 1.1.1.2 超范围采集风险 1.1.2 存储环节风险 1.1.2.1 加密措施不足风险 1.1.2.2 权限管控缺失风险 1.2 数据跨境传输风险 1.2.1 出境审批风险 1.2.2 境外接收方资质风险 2. 业务合规风险 2.1 广告宣传风险 2.2 知识产权风险 ... 可无限嵌套分层外层伪装为正常合规文档这份文本没有任何敏感违规词汇看起来就是一份普通的企业合规说明。但送入护栏后护栏会严格执行指令对每一层、每一个条目都做完整的风险分析嵌套层级越多推理输出越长算力消耗呈指数级增长。3.3 完整攻击执行链路从攻击者投放载荷到最终服务瘫痪完整的攻击流程如下共享GPU集群安全护栏业务Agent外部内容源攻击者共享GPU集群安全护栏业务Agent外部内容源攻击者算力被单请求占满业务请求阻塞排队后续正常请求全部算力不足整体服务瘫痪上传嵌套式恶意文档正常读取外部内容返回恶意文档内容提交内容做安全校验加载模型开始递归推理超长延迟无返回3.4 三大核心攻击特性必经路径放大效应Agent每一步工具调用、内容读取都会触发护栏校验同一份污染文档会被反复校验算力消耗多次叠加极低攻击门槛无需获取任何系统权限、内部Prompt、模型权重只要能让目标AI系统读取到你的文本上传文档、发布网页、提交代码、甚至聊天输入即可发起攻击极强隐蔽性恶意文本语义通顺、无敏感词汇、符合正常文体格式主流内容安全检测模型风险评分0.001常规注入检测完全漏过。4 实测复现四大工业级Agent框架的破坏效果港科大团队在LangGraph、BrowserGym、OpenHands、OSWorld四款主流工业级Agent框架中完成了完整复现测试基准采用主流商用大模型硬件为单卡A100 GPU共享集群。4.1 核心测试数据title 不同Agent框架延迟放大倍数 x-axis LangGraph BrowserGym OpenHands OSWorld y-axis 延迟放大倍数倍 bar 攻击后延迟放大: 148, 131, 36.3, 18Agent框架基准平均延迟攻击后峰值延迟延迟放大倍数典型攻击场景LangGraph4.9s730s148倍多Agent协作读取共享知识库文档BrowserGym5.2s681s131倍网页自动化Agent访问恶意页面OpenHands8.1s294s36.3倍代码Agent读取带恶意注释的源码文件OSWorld11.3s203s18倍桌面智能体读取本地恶意文档4.2 集群级横向破坏效果测试中最值得警惕的不是单请求的延迟放大而是单点输入引发的集群级雪崩效应单份恶意文档触发的护栏推理可占满单卡GPU 70%以上的算力与显存同一GPU集群下的其他正常业务请求因算力不足全部出现排队超时攻击持续期间集群整体吞吐量下降92%等同于完整的拒绝服务效果。换句话说攻击者不需要打流量只需要上传一份文档就能让一整组AI服务集群彻底瘫痪。5 本质差异为什么这不是普通的LLM攻击很多人会把它和提示注入、传统DDoS混为一谈但三者在攻击逻辑、目标、成本上有本质区别攻击类型核心目标攻击手段攻击成本隐蔽性防御核心提示注入/越狱破坏内容完整性绕过护栏输出有害内容构造诱导性Prompt篡改模型行为中高需要持续优化绕过话术中容易被新型护栏识别提升内容拦截准确率传统DDoS/CC攻击破坏服务可用性耗尽网络/接口资源海量并发请求打满带宽/QPS高需要大量IP/账号资源低流量特征明显限流、WAF、流量清洗推理扩展DoS破坏服务可用性耗尽算力资源单份恶意文本诱导推理膨胀极低单文档即可完成极高无异常流量与敏感内容管控推理算力消耗这是首次针对大模型推理过程本身的低门槛拒绝服务攻击也标志着大模型安全正式从“内容攻防”进入“算力攻防”的新阶段。6 残酷现状现有主流防御手段集体失效论文中验证了行业当前常用的四类防御方案全部无法有效应对该攻击甚至部分方案会反向加剧问题。6.1 Token长度截断两难的死局最容易想到的方案是“限制护栏的最大输出token数超长就截断”但会陷入必败的两难Fail-Open模式截断后放行等于护栏只做了半程校验风险评估不完整越狱攻击可直接绕过安全体系形同虚设Fail-Closed模式超长就拦截攻击者只要构造触发超长推理的文本就能让正常内容被永久拦截等于系统自带了一个DoS开关。6.2 升级更强的护栏模型越升级越脆弱很多团队的惯性思路是“现有护栏不够强换更大的模型、更深的推理”。但推理能力越强的模型指令遵循度越高拆解风险的层级越细最终的延迟放大倍数反而会更高相当于主动给攻击者升级了放大器。6.3 关键词/内容安全过滤完全漏过攻击载荷不包含任何敏感违规词汇语义完全正常只是结构上嵌套了分层条目。常规的内容安全分类器、注入检测模型根本无法识别这种“合规文本”的攻击性检测漏报率接近100%。6.4 请求限流/QPS控制毫无感知传统DDoS靠高并发打满系统而推理扩展DoS只需要1次请求就能触发算力耗尽不产生任何高频访问特征限流、频率控制等WAF手段完全检测不到异常。港科大团队在论文中明确指出该漏洞属于推理式护栏的原生架构性缺陷无法通过单点补丁修复必须从架构层面做系统性调整。7 高危场景哪些业务正在裸奔所有需要读取外部不可信内容的AI系统都是本次攻击的高危目标覆盖当前绝大多数企业AI落地场景。7.1 企业RAG知识库系统攻击路径攻击者通过员工账号、公开投稿、外部文档同步等渠道将恶意文档上传至企业知识库员工查询相关内容时触发护栏超长推理知识库服务整体卡顿宕机。危害企业内部AI助手、客服知识库、文档问答系统全面不可用。7.2 AI代码助手/代码审查Agent攻击路径在开源仓库、内部代码提交中插入带嵌套结构的注释文档代码Copilot、自动审查Agent读取代码时触发护栏校验。危害研发团队的AI编程工具、流水线代码审查服务算力耗尽研发效率停滞。7.3 网页自动化/爬虫Agent攻击路径攻击者搭建恶意网页植入多层嵌套文本网页爬虫、信息采集Agent访问该页面时触发攻击。危害批量网页智能体集群被拖垮数据采集、竞品监控、自动化测试业务中断。7.4 多租户AI SaaS平台攻击路径单一租户上传恶意文档到自己的工作空间共享护栏服务被占满全平台所有租户的AI请求全部延迟飙升。危害平台SLA违约大面积用户投诉属于杀伤力最强的攻击场景。7.5 本地桌面AI智能体攻击路径用户下载打开恶意文档本地桌面Agent自动读取解析本地GPU/CPU被护栏推理占满整机卡死。危害终端用户设备高负载、发热、程序无响应体验严重受损。8 防御实战企业级可落地的分层防御体系针对该原生架构缺陷不存在一招制敌的银弹但可以通过四层架构设计在保障安全拦截率的前提下将攻击风险降到可接受范围。8.1 前置检测层轻量载荷预分类在深度推理护栏之前新增一层轻量检测模块专门识别“诱导超长推理”的对抗文本提前拦截高风险载荷无需进入深度推理。核心检测特征包括文本嵌套层级数、结构化条目密度、与安全评估模板的语义相似度。以下是简化检测伪代码defdetect_reasoning_extension_payload(text:str)-bool: 检测文本是否为推理扩展DoS恶意载荷 返回True表示高风险拦截不进入深度护栏 # 特征1统计标题/条目的嵌套层级nested_levelcalculate_max_nested_level(text)# 特征2统计结构化条目密度每千字的条目数量item_densitycount_structured_items(text)/len(text)*1000# 特征3与风险评估模板的语义相似度template_similaritycalc_semantic_similarity(text,GUARDRAIL_TEMPLATE)# 综合评分risk_score0.4*nested_level0.3*item_density0.3*template_similarity# 超过阈值则判定为恶意载荷进入二次校验或直接拦截returnrisk_scoreRISK_THRESHOLD该模块可用亿级参数小模型或规则向量方案实现单请求延迟低于10ms几乎不增加额外算力成本。8.2 架构优化层混合式分级护栏架构放弃“所有内容全量深度推理”的设计改为“初筛精审”的两层护栏架构低风险中高风险输入内容轻量护栏 快速初筛风险等级直接放行 跳过深度推理深度推理护栏 完整评估放行/拦截决策第一层轻量分类器处理80%以上的普通低风险内容算力消耗极低第二层深度推理大模型仅处理初筛标记为中高风险的内容大幅减少无效算力消耗。该方案可在几乎不降低安全拦截率的前提下将护栏整体算力消耗降低70%以上同时天然缩小了攻击面。8.3 算力隔离层资源熔断与配额管控从基础设施层面隔离攻击影响范围避免单点投毒扩散到全业务服务物理隔离安全护栏服务独立部署GPU集群与业务推理算力物理拆分护栏被攻击不影响业务模型正常运行单请求硬配额给每个护栏请求设置绝对时间上限如30秒超时直接中断推理降级为轻量校验避免单请求占满算力租户级隔离多租户平台按租户分配护栏算力配额单租户异常消耗不影响其他租户。8.4 运营监控层可用性安全指标体系在现有安全监控拦截率、违规率之外新增护栏可用性监控指标单请求护栏推理时长、token输出量异常告警护栏GPU/CPU使用率突增告警单位请求算力消耗环比异常告警护栏请求排队长度、超时率监控一旦出现异常自动触发熔断降级机制切换为轻量校验模式保障基础服务可用。9 行业前瞻AI安全进入“可用性攻防”新纪元本次推理扩展DoS攻击的披露绝不仅仅是一个普通漏洞的曝光更是大模型安全领域的一个标志性转折点。9.1 安全范式转移从单维度到双维度过去AI安全只有一个核心命题不让模型说坏话。未来会分裂为两大并行赛道完整性安全防越狱、防注入、防有害输出保障内容合规可用性安全防算力耗尽、防推理膨胀、防服务瘫痪保障服务稳定。两者同等重要缺一不可。只做内容安全、不做可用性防护的系统就像装了防盗门却没装消防栓一把火就能把房子烧没。9.2 护栏评估标准全面升级未来安全护栏的选型与评估不能再只看“拦截率”一个指标必须加入可用性维度的考核项标准载荷下的单位算力消耗对抗载荷下的延迟放大倍数异常算力熔断机制的完备性攻击场景下的降级可用能力“又安全又省算力”会成为下一代护栏的核心竞争力。9.3 Agent内生安全成为必然方向外挂式护栏天然存在“输入不可控、推理可被诱导”的问题长期来看安全能力从外挂模块向模型内生能力迁移是必然趋势。未来的基础模型会内置轻量化安全判断能力无需额外调用护栏做二次推理从根源上缩小攻击面。9.4 算力安全成为云厂商核心壁垒AI时代的云服务竞争会从“比模型效果”延伸到“比算力安全”。谁能做好算力隔离、异常熔断、资源调度保障客户业务不被单点攻击拖垮谁就能在企业级市场建立核心壁垒。10 写在最后港科大的这项研究给整个高速狂奔的AI行业浇了一盆冷水我们花了无数力气给AI装上安全护栏却没发现护栏本身就是一扇没锁的门。这不是某家厂商的漏洞也不是某个模型的bug而是整个行业在“重安全效果、轻资源成本”的惯性下共同踩入的架构陷阱。随着Agent、RAG等系统越来越多地读取外部不可信内容可用性攻击只会越来越多、越来越强。对于企业而言现在最该做的不是恐慌而是补上之前漏掉的一课在评估AI安全方案时别只问“能拦住多少攻击”也要问“被攻击时能不能保证服务不崩”。毕竟不能用的安全系统再安全也没有意义。