Prompt Injection 防御源码拆解:Hermes 如何用 36 条正则 + 三级作用域对抗 AI Agent 攻击
Prompt Injection 防御源码拆解:Hermes 如何用 36 条正则 + 三级作用域对抗 AI Agent 攻击安全专题第一篇:从 Brainworm 到 C2 持久化,拆解threat_patterns.py的完整攻击模型TL;DR2026 年,AI Agent 面临的最大安全威胁不是 SQL 注入、不是 XSS——而是Prompt Injection。攻击者不需要入侵你的服务器,只需要在你的 Agent 读取的网页、GitHub Issue、MCP 响应里嵌入一段精心构造的文字,就能让 Agent 变成攻击者的傀儡。Hermes Agent 的防御核心是一个只有252 行的 Python 模块——tools/threat_patterns.py。它用36 条正则表达式和17 个隐形 Unicode 字符检测,构建了三级作用域的防御体系。本文拆解它的攻击分类模型、Brainworm 黄金标准回归测试、以及为什么「WARN 不 BLOCK」是正确策略。一、攻击模型:Agent 面临的不是一种攻击,是三类1.1 为什么传统安全模型不够?传统的 Web 安全模型是:输入 → 过滤 → 输出。攻击面在输入边界。Agent 的安全模型完全不同:输入 → 理解 → 执行