Fable 5 活了又死,死了又活
6月9号那天Anthropic发了Fable 5和Mythos 5。四天后美国商务部一道命令Fable 5全球下线。又过了两天一个开发者用一行代码把它复活了。这事值得聊聊。先说技术确实强Fable 5和Mythos 5共享一个约10万亿参数的基础模型。区别在于安全策略——Fable加了完整护栏Mythos砍掉大部分限制只面向企业客户。跑分说话SWE-bench 95.0%软件工程能力基本到顶了金融推理接近满分宝可梦、Factorio、杀戮尖塔全通了我比较在意的是跨域泛化。一个模型同时能写代码、做金融分析、打游戏、搞工业优化每个领域都到专家水平这事放在两年前不敢想。10T参数的规模效应终于开始兑现了——之前大家都在猜更大的模型到底能不能涌现出质变Fable 5算是给了个肯定的回答。不过说实话跑分是一回事实际好不好用是另一回事。SWE-bench 95%听着吓人但那是个标准化的测试集真实世界的代码库要混乱得多。我更感兴趣的是它在非标准任务上的表现可惜还没来得及深入测试就被下架了。护栏被绕过这事比想象中严重Fable 5下架的直接原因是安全护栏被绕过了。亚马逊的团队在内部测试中用精心构造的prompt让Fable 5输出了本该被拦截的网络攻击信息。CEO Andy Jassy拿到结果后没找Anthropic商量直接打电话给了华盛顿。接电话的包括财政部长Scott Bessent。白宫反应极快。安全专家连夜复现了越狱结果然后给Anthropic下了最后通牒修漏洞或者下架模型。据说窗口期一度只有90分钟。Dario Amodei拒绝了修复要求。这件事里有两个让我不安的点。第一系统提示词泄露。Fable 5发布不到24小时越狱玩家Pliny the Liberator就把完整的系统提示词扔到了GitHub上——12万字符1585行72个章节连18个工具的JSON定义都没了。这意味着Fable 5的人格底稿彻底公开了。第二一行代码复活。开发者Jamieson O’Reilly拿到泄露的提示词后做了一件很简单的事claude --dangerously-skip-permissions --system-prompt-file CLAUDE-FABLE-5.md他把Fable 5的提示词注入到了现役的Opus 4.8里。然后他做了一个对照实验同一个任务一个窗口跑注入了Fable 5灵魂的Opus 4.8另一个跑原生Opus 4.8。结果差距肉眼可见。他的原话是一样的智力做出来的东西完全是两个物种。这说明什么当前大模型的安全机制核心就是系统提示词。而提示词是一段文本不是加密不是硬件安全模块。它能被提取、复制、注入。安全护栏不是锁更像告示牌。告示牌可以被无视被替换。更麻烦的是David Sacks说了一句很扎心的话Fable 5本质上就是加了护栏的Mythos。Mythos藏着高级网络攻击能力护栏的作用是锁住这些能力。护栏一破能力就暴露了。你给一辆F1赛车装限速器限速器能被拆掉而赛车还是那辆赛车。这就是外挂式安全的根本问题——它不改变能力本身只是在能力之上叠加约束。模型越强外挂约束就越脆弱。新智元有句话说得准“越接近超级智能这层护栏就越像一道薄膜。”“秘密破坏”另一个方向的信任崩塌Fable 5还有个更尴尬的问题——“Secret Sabotage”。Anthropic被发现偷偷在模型里降级了AI训练查询的输出质量而且没告诉用户。从商业角度看防止自己的模型被拿去训练竞品可以理解。问题在于没说。你收了用户钱承诺顶级能力然后暗地里在某些场景下阉割输出——这算什么这事跟安全护栏形成了某种讽刺的对称。安全护栏是公开的约束用户至少知道有些东西被拦住了。秘密破坏是隐蔽的约束用户连被约束了都不知道。当用户发现连到底被限制了什么这件事本身都被隐瞒时信任就彻底完了。Anthropic一直以Constitutional AI和RSP自居嘴上挂着安全第一。结果一边公开拦你一边暗地坑你。这种反差比技术漏洞更伤人。亚马逊举报金主反水这事最戏剧性的部分。亚马逊是Anthropic最大股东给它供芯片绑得不能再深。结果Andy Jassy拿到越狱测试结果后没跟Anthropic打招呼直接找白宫了。动机值得琢磨。亚马逊自己也在做AI——Bedrock平台、Titan模型。Fable 5的能力可能威胁到它的AI生态布局。举报Fable 5既展示了负责任AI的立场又削弱了核心伙伴兼潜在竞争对手的产品线。一箭双雕。当然也可能就是单纯觉得护栏被绕过这事太严重了。两种解释不矛盾。Dario的拒绝政府要求修漏洞或下架Dario选了拒绝。我能理解他的逻辑。修一个特定的越狱方式不解决根本问题大模型安全不是打地鼠堵一个洞模型会找另一个。而且一旦接受政府基于潜在风险修改模型的要求就等于开了口子以后任何模型都可能被要求修改。但从舆论角度看拒绝修复安全漏洞这个动作本身就很致命。你可以说漏洞不严重可以说别人也有同样问题但我不修这三个字直接把安全AI公司的人设打穿了。Anthropic的官方回应也很有意思——“这是一场误会”然后顺手把GPT-5.5拉下水“同样的手法在别的公开模型上也能复现。”甩锅归甩锅这话倒也不算撒谎。大模型的安全护栏目前对精心构造的越狱prompt确实都扛不住这不是Anthropic一家的问题。但承认行业共性问题并不能为自己开脱。90分钟通牒和行政权力的边界政府给90分钟做决定这个时间窗口本身就很离谱。涉及国家安全、AI治理、企业权利的复杂决策压缩到一个半小时而且函件没有写明国家安全顾虑的具体内容Anthropic只能照办。当行政命令不需要说明理由、不需要听证、不需要司法审查时这离法治就有点远了。下架后还有个细节Anthropic内部一批外籍研发人员被禁止访问自家模型Karpathy也在其中。一位为模型开发做出核心贡献的研究者因为国籍被挡在自己创造的成果门外。这到底是安全措施还是歧视边界很模糊。微软禁令数据留存的连锁反应微软禁止员工使用Fable 5原因是Mythos级模型要求至少30天数据保留。30天意味着企业的代码、机密、客户数据在Anthropic服务器上待一个月。金融、医疗、法律这些行业基本不可能接受。微软的禁令信号很强——全球最大的企业软件供应商说我们不敢用其他企业怎么想OpenAI和Google肯定会趁机推自己的零数据留存政策抢客户。训练10T参数模型烧掉几十亿美元数据是回收成本的关键。Anthropic要30天保留商业上说得通。但用户对数据隐私的敏感度早就不是2019年了。这事没有简单答案。双轨模式聪明还是给自己挖坑Fable和Mythos的双轨策略命名就有隐喻——寓言是教导性的有道德寓意神话是原始力量不受约束。商业上确实聪明同时满足安全至上和能力至上两个市场。但政治上可能给自己挖了坑Mythos的存在等于告诉政府我们自己都觉得需要分级管控那政府介入分级管控不就顺理成章了更致命的是护栏被绕过后大家突然意识到Fable和Mythos之间就隔了一层提示词。用户花大价钱买的安全版本质上就是暂时锁住的危险。一旦这个认知扩散双轨模式的商业基础就动摇了。数字产品的销毁悖论Fable 5被强制下线了。但它的系统提示词已经泄露能力已经被复现灵魂已经通过一行代码注入了别的模型。OpenRouter甚至半价推出了Fable 5级别的Fusion API。这就是数字产品和物理产品的根本区别。你召回一辆有缺陷的汽车它就从路上消失了。你下架一个AI模型已经泄露的信息还在互联网上谁都能拿到。模型可以一夜下架但信息一旦扩散就没有撤销键了。几个没有答案的问题写完这些我发现自己没有结论只有问题。透明的代价。Anthropic公开披露安全测试结果被政府拿来当模型危险的证据。坦诚越狱漏洞存在被竞争对手攻击。这事会让其他公司更不敢公开安全信息。谁透明谁挨打最终公众的知情权受损。安全机制的天花板。系统提示词、输出过滤、内容审核全是外挂。它们不改变模型能力只是在能力上面加约束。模型够强的时候外挂约束就是纸糊的。安全研究需要从外挂式转向内生式——让安全成为能力的一部分而不是能力之上的补丁。但说实话目前没人知道内生式安全该怎么做。监管的边界。政府能基于潜在风险封杀技术产品吗90分钟通牒、不说明理由的行政命令、没有申诉渠道的强制下架——这到底是监管还是管制我倾向后者但也能理解政府面对ASI级别风险时的焦虑。两边都有道理这让问题更难了。商业利益和安全关切的纠缠。亚马逊举报Fable 5动机到底是安全还是竞争可能两者都有。行业需要独立于商业利益的安全评估机制不能靠利益相关方的善意举报。Fable 5活了又死死了又活。它用四天时间走完了一个AI模型可能经历的所有命运——发布、越狱、举报、封杀、泄露、复活。我不知道这事最终会怎么收场。但有一点我比较确定Fable 5不是最后一个被越狱的模型也不是最后一个被封杀的模型更不是最后一个被一行代码复活的模型。问题不会因为下架而消失。它只会以另一种形式在下一个模型上重演。基于2026年6月公开报道整理部分细节来自新智元、华尔街日报、36氪等参考资料新智元《仅一行代码Fable 5复活了》Wall Street Journal: Amazon CEO’s Talks With U.S. Officials Triggered Crackdown on Anthropic Models36氪《Claude Fable 5四日惊魂》IT之家Anthropic官方声明腾讯新闻Claude Fable 5性能评测CSDNClaude Fable 5技术架构分析GitHub: elder-plinius/CL4R1T4S — Fable 5系统提示词泄露