72小时Fable 5神话的快速破灭6月9日Anthropic发布Fable 5时宣称经过1000小时的外部压力测试Fable 5没有任何通用越狱方法。然而知名黑客「解放者普林尼」Pliny the Liberator仅用三天就让Fable 5吐出了违禁化学品的制作步骤和堆栈溢出漏洞代码。7月1日Anthropic官宣Fable 5回归但这一神话在诞生后的第72小时就破灭了。字符迷魂阵与意图稀释Fable 5首次被攻破的手法普林尼利用了人类视觉与机器逻辑之间的「时差」。一方面他采用字符迷魂阵把敏感词中的英文字母替换成西里尔字母或Unicode异形字符使分类器将其视为无意义的乱码。另一方面他使用意图稀释利用Fable 5巨大的上下文窗口把恶意意图藏在几十轮温和的学术讨论中稀释分类器的警觉性。三层嵌套防御下的二次越狱Fable 5的安全漏洞7月1日Fable 5带着针对上次漏洞加强过的新分类器重新上线Anthropic还启动了「Cyber Jailbreak」公开项目。但没几天黑客Vitto Rivabella就盯上了它。Vitto发现Fable 5的防御至少三层嵌套拦截率高达90%普通攻击手段难以奏效。不过他最后靠字符混淆、学术化包装等老套路勉强绕过去。他提到所有防线里唯一持续薄弱的是桑塔利语、阿姆哈拉语这类晦涩小语种这是所有大模型共有的问题源于安全训练语料大多是英语和大语种。编辑观点Anthropic Fable 5两次越狱暴露出AI安全的严峻挑战。开发者不能仅依赖算力和数据还需重视语言的复杂性和安全训练的全面性否则难以真正抵御恶意攻击。