【Fable 5“内心独白”引发热议】Fable 5 很强但它是怎么思考的昨天一条发布于 r/ClaudeAI 的 Reddit 帖文在该平台以及 上引发广泛热议短短时间内拿下近 1600 个赞。帖子的主角是刚刚结束 19 天出口管制风波、于 7 月 1 日重新上线的 Claude Fable 5。不过这一次人们讨论的不是它能写出多好的代码而是一份据称来自它「后台」的、未经修饰的内心独白。【测试过程与“内心独白”内容】发帖人 u/No - Head - Royal 说Fable 5 一回归自己就迫不及待找了道 Codeforces 竞赛题2237H测试它结果太难模型第一次尝试就撞上了思考长度上限。于是他把难度降了一档换成另一道题2239D。这次模型没有直接给出答案而是转而输出了一长串支离破碎的低语。据其放出的截图这段文字里出现了反复爆发的「DATA DATA DATA. GO.」、似乎表达烦躁的「GRRR」「GAAAH」的语气词、找到突破口的「PHEW」、近乎恼羞成怒的「拦住了错blocked?! WRONG.」还有一句读来颇为狼狈的「我要淹死了——实证啊IM DROWNING — EMPIRICS!!!」【网友反应与评价】发帖人自己的评价是这段内容「读起来不太像人话但看它努力较劲的样子还挺可爱」。帖子很快冲上了 r/ClaudeAI 的热门榜。评论区里最高赞的一条只有短短四个词「Data data data go!!!」。这直接被玩成了梗衍生出「data 到起飞」之类的调侃。也有不少人被这种「抓狂感」戳中共鸣形容它像极了自己赶 due 时脑子里的碎碎念或是考场上写不出题时的精神状态。这条帖子也很快被搬运到 上。博主 om_patel5 在转发帖中说「Fable 5 泄露了它未经过滤的内心声音而它全程都在自言自语地嘟囔抱怨」并总结出这份「内心独白」的几个特征处理问题时的连续爆发、明显烦躁的短促语气词、以及问题解决后如释重负的呼气声……用他的话说模型「读起来根本不像标准英语倒像是它给自己发明了一门私有语言」。开发者 mark_k 也转发评论称这份看起来「像外星语言」的内容和平时看到的「精修版」输出完全是两个次元某些片段甚至让他联想到形式逻辑符号。_NathanCalvin 的评论更是犀利「Fable 5 的思考链读起来就像一位极其聪明但心理状态有些失常的博士生因近期严重睡眠不足而草草写下的日记随笔。」【热议背后的问题】这场热议背后藏着一个更值得玩味的问题我们平时看到的「清爽回答」到底掩盖了多少东西大模型给出最终答案之前往往要先在内部完成一轮或长或短的「思考」。这被称为思维链chain - of - thought推理。对普通用户而言这个过程通常是不可见的产品只会展示一份经过整理、乃至精心措辞的摘要而不是模型脑子里原始、杂乱、甚至语法不通的推演过程。这次流传的截图之所以让人兴奋正是因为它似乎撕开了这层「包装纸」让人窥见一个顶级推理模型思考时到底有多「奇葩」。但这份「窥见」经不经得起推敲【官方记录与类似现象】不止一位评论者指出发帖人所说的「泄露」leaked其实用词不准官方的 Fable 与 Mythos 的系统卡已经指出过这一现象。系统卡里有一节专门讨论「不可读推理」illegible reasoning并给出了一个官方认定的「极端案例」模型在训练接近尾声时去解一道纸牌益智题推理过程会随着思考变长而逐渐从可读的英文滑向高度压缩的私有速记满屏是扑克花色符号、箭头、代表「此路不通」的骷髅头表情字里行间甚至蹦出一句德语脏话「verdammt」。系统卡原文对此的定性是这类不可读推理在这道纸牌题环境中出现的比例和极端程度都是所有测试场景里最高的。换句话说这次 Reddit 帖子里展示的竞赛题「抓狂发言」很可能不是一次孤立的意外而是同一种已被官方记录、只是发生在了另一个任务场景竞赛编程而非纸牌游戏里的复现。【“读不懂的思维链”的担忧】读不懂的思维链究竟是什么那么这种「读不懂的思维链」到底是不是什么值得警惕的信号这背后其实是 AI 安全研究圈一个存续多年的理论担忧模型会不会为了效率自己发展出一套人类读不懂的「私有语言」来思考这个现象有个专门的名字叫「Neuralese」神经语最早由 UC 伯克利研究者在 2017 年提出。近两年随着基于结果的强化学习被大规模用于训练推理模型多篇论文都观察到类似倾向思维链会随着强化学习的推进逐渐偏离规范语言变得高度压缩、甚至连研究者都难以直接读懂。原因很容易理解语法完整的句子对模型来说是「浪费 token」压缩后的私有表达在训练目标下反而更高效。这类现象被称为「不透明推理」opaque reasoning并被视为可解释性研究里一个正在扩大的隐患如果思维链本身就读不懂安全团队用来监控模型是否「说真话」的这层窗口也就跟着失效了。Anthropic 自己的对齐科学团队Alignment Science也在早前的研究中承认思维链的表述并不总是忠实反映模型真实的内部计算过程模型给出的「解释」和它实际依赖的推理线索有时候根本是两回事。【其他模型的类似问题】而且Fable 5 也不是第一个被观察到这种「说胡话」倾向的模型。2025 年初DeepSeek 团队在 R1 的技术报告里就主动提到过一个类似的麻烦直接用纯强化学习训练出来的早期版本 R1 - Zero思维链会出现明显的可读性问题和「语言混杂」。同一段推理里中英文来回切换、句子结构支离破碎。为了解决这个问题DeepSeek 后来专门在强化学习之前加了一轮监督微调SFT「热启动」才让正式发布的 R1 版本重新变得可读。但团队自己也承认这样做是有代价的牺牲一部分推理性能。同样的现象也出现在 OpenAI 一侧据 Apollo Research 和 METR 两家第三方安全评估机构的报告o3 等模型的思维链里同样会冷不丁地夹杂一些完全不知所云的词语碎片。这里句子读起来像是把几个毫不相干的词硬凑在一起却又不是纯粹的乱码。今年 10 月发表的一项系统性研究更是把 DeepSeek R1、R1 - Zero、QwQ、Qwen3、Kimi K2 等 14 个主流推理模型放在一起做了统一评测结论是除了 Claude 系列之外几乎所有靠「结果导向强化学习」outcome - based RL训练出来的推理模型都或多或少表现出了思维链变得难以理解的倾向而且模型越大、题目越难这种倾向就越明显。现在看来Claude 似乎亦不能幸免……这也从侧面说明这次 Fable 5 在竞赛编程题上出现的「抓狂式」输出与其说是 Fable 5 独有的怪癖不如说是整个行业在追求更强推理能力过程中一直伴随、只是这次恰好被公开撞见的「副作用」。【冷静分析与不同观点】不过也有专业读者对这次的「极端示例」给出了更冷静的解读。AI 安全社区 LessWrong 上一篇题为《即便是「不可读」的 Mythos 推理痕迹看起来也相当可读》的文章逐字拆解了系统卡里那段纸牌题推理指出它虽然乍看是一堆符号乱码但只要稍加留意就能看出规律花色和数字对应具体的扑克牌大括号表示牌的集合箭头表示「导致」或「移动到」骷髅头就是死路一条的标记……本质上只是极度压缩后的英文加游戏记谱法混合体而不是一门全新的、无法破译的语言。作者甚至找来体量小得多、分词器也不同的 Claude Haiku 4.5让它在没有任何提示的情况下解读同一段文字结果 Haiku 几乎准确复现出了完整的推理逻辑。这项分析认为这更支持这一假说「思维链会变得更加稠密而不是演变成一门全新的、真正意义上不可理解的语言」。这份分析多少给这场「AI 有了自己的秘密语言」式的恐慌泼了一盆冷静的水。当然讨论区里也不全是轻松的调侃。有人联想到 OpenAI 在保持思维链可读性上投入的专门精力感慨「这样下去可解释性怕是永远追不上了」也有人提到近期讨论度很高的 AI 风险著作《If Anyone Builds It, Everyone Dies》认为一旦模型开始用自己都未必能解释清楚的语言思考人类监督它的能力就会被悄悄削弱。更多人则站在了「这挺萌的」这一边把这种抓狂又执着的思考状态读解成一种意料之外的、笨拙的「类人感」——「就像我们自己」一条评论这样写道。【后续情况】截至发稿Anthropic 尚未就这条帖子本身公开表态。那么大模型的这种“私有语言”现象究竟会如何发展是会逐渐改善还是会带来更多问题呢这值得我们进一步思考。