阿里巴巴与清华大学联手破解AI的“大脑偏差“
这项由阿里巴巴集团旗下Qwen团队与清华大学、南洋理工大学共同完成的研究于2026年6月以预印本形式发布论文编号为arXiv:2606.21906感兴趣的读者可通过该编号查阅完整论文。当你和一位聪明的朋友聊天他思考了很久最终给你一个答案——但这个答案其实并不是他深思熟虑之后的最佳想法而是他为了听起来更得体而临时换掉的一个更保守的说法。你心里可能会想他之前想到的那个答案明明更好为什么要换掉呢这恰恰就是当今那些经过大量训练的人工智能大语言模型比如ChatGPT这类聊天AI面临的核心困境。研究团队将这个现象称为对齐税——AI为了显得更礼貌、更安全、更通用会在最后一步悄悄修改自己原本更精准的答案。而这篇论文提出的方法正是要找到AI在改口之前那个更聪明的瞬间直接采用那个时刻的答案。一、大语言模型的大脑是怎么工作的要理解这项研究需要先了解一件事大语言模型不是一步就生成答案的它的内部有几十甚至上百层处理关卡每一层都会对输入的问题进行加工和精炼就像一块粗糙的原石依次经过不同工匠的雕琢最终变成精致的玉器。研究团队把这个层层加工的过程分成了三个阶段并给它们起了一个生动的名字猜测-精炼-扰动Guess-Refine-Perturb。在最初的浅层大约占整个网络深度的前15%模型处于一种高度不确定的状态。就像一个人刚刚听到题目的头几秒大脑飞速转动产生一个模糊的初步印象。这个阶段的输出非常粗糙充满噪音可以理解为我可能猜测答案是这个方向的阶段。随后进入中间的大片区域约占深度的15%到95%模型开始扎实地做推理工作。注意力机制不断整合上下文信息每一层都在朝着更精准的方向稳步推进。就好比工匠一刀一刀地精心雕刻方向正确手法稳健每一步都让作品更接近完美。研究团队发现在这个阶段相邻两层输出的方向高度一致余弦相似度维持在0.91到0.97之间说明模型在沿着一条稳定的语义轨迹前进没有迷失方向。然而在最后几层大约最后5%的深度一件奇怪的事情发生了模型的更新幅度突然增大而且输出方向发生了明显偏转。用数据来说在最后一个全注意力层更新向量的幅度是中间阶段平均水平的2到3倍而输出与前一层的方向相似度骤降到0.69远低于中间阶段的水平。这说明最后几层在对精心构建的推理结果做了一次重新写作——而这次重写往往把原本精准的专业词汇换成了更通用、更安全、更听起来符合期望的表达。二、为什么会出现这种临门一脚的失误要理解为什么最后几层会坏事需要了解现代AI训练的另一面。现在的大语言模型不仅要学会说话还要经过大量的行为矫正训练包括基于人类反馈的强化学习RLHF、直接偏好优化DPO等方法。这些训练的目的是让AI更安全、更有礼貌、更符合人类的普遍期望。这本来是好事但它带来了一个副作用。经过这些训练AI的最后几层会被校准为倾向于输出那些人类普遍喜欢的回答——频率高的词、安全的表达、通用的说法。当AI在解答一道复杂的物理题或数学竞赛题时它在中间层已经形成了严谨的推理链条准备好了质量守恒定律这样的精确表达但最后几层的礼貌滤镜可能会把它换成一个更笼统的词破坏了逻辑链的精密性。研究团队用一个非常生动的词来描述这种现象计划与表达之间的权衡planning-pragmatics tradeoff。AI内部的计划已经推理到位了但表达这一步出了问题。对于日常闲聊或者安全提示来说这种修正是有益的护栏但对于需要精确逻辑推理的复杂任务来说这就是一种税收——为了让回答更通用而牺牲了准确性。研究团队还通过数据直接验证了这一点。在对一个名为GPQA Diamond的研究生级科学问答数据集进行测试时他们分析了Qwen3.5-35B-A3B这个模型生成的20多万个词语发现有16.2%的词语在最后一层经历了扰动——熵值即不确定程度不降反升说明模型在最后一步反而变得更犹豫了这些犹豫最终导致了更平庸的词汇选择。三、从信息瓶颈到最佳停止点理论为什么支持这个方法研究团队不仅观察到了现象还从信息论的角度给出了理论解释。信息瓶颈原理告诉我们神经网络的训练过程实际上是在寻找一个平衡点一方面要压缩输入信息去掉无关的噪音另一方面要保留与输出目标相关的有效信息。学习完成之后这个平衡点被编码进了网络的权重中在推理时决定了信息流动的方式。在理想状态下从某个关键层称为Vonset开始模型对下一个词的预测不确定性即熵应该随着层数加深而单调下降就像一条从模糊逐渐变清晰的焦距调节曲线。然而当最后几层受到对齐扰动的影响时这条曲线在接近终点时反而出现了一个小小的回弹——就像快要对准焦距的时候手抖了一下。这个手抖之前的最低点就是研究团队所说的熵谷Entropy Valley——它代表了模型在整个推理过程中置信度最高、最确定的那一刻也是最应该采用模型输出的那一刻。研究团队进一步把层的选择问题形式化为一个最优停止问题类似于找工作时决定接受这个offer还是继续等待更好的机会的那类数学问题并证明了他们提出的保守向后搜索算法在数学上是最优的它能够在过滤掉最后几层的对齐扰动的同时把因为提前停止而带来的语义损失控制在最小范围内。四、自信解码方法如何找到那个最聪明的瞬间基于以上的发现研究团队设计了一种叫做自信解码Confident Decoding的方法。这个方法的核心思想非常直觉不要总是用最后一层的输出而是动态地找到那个最自信的层来决定每一个词。具体操作起来这个方法在每生成一个词之前会从最后一层开始向前扫描一个固定窗口默认是10层。判断标准很简单当前层的熵值不确定程度是否比下一层更低如果是就继续向前一层看看一旦遇到某层的熵值不再比它后面那层更低就停在这里用这一层的输出来决定这个词。这就好比你在一排越来越清晰的照片中找到那张最清晰的然后把焦距定在那里。需要特别强调的是这个方法并不跳过或截断神经网络的计算。模型依然完整地运行所有层KV缓存、注意力机制等一切照常运转。唯一的区别是最终用哪一层的逻辑单元来决定词汇选择从固定用最后一层变成了动态选择最自信的层。这意味着这个方法可以零成本地插入现有的AI推理系统不需要重新训练模型不需要修改模型架构也几乎不增加内存开销。研究团队甚至在工业级推理引擎vLLM上实现了这个方法解决了张量并行、连续批处理、CUDA图回放等一系列工程难题最终将实际延迟增加控制在2%以内。五、实验结果数字背后的真实意义验证一种方法是否真的有效最有说服力的是在多个不同的测试场景中看到一致的提升。研究团队选择了六个极具挑战性的基准测试覆盖了科学推理、数学竞赛、长文本理解、代码生成、安全性以及创意写作等不同维度。在难度最高的科学推理测试GPQA Diamond研究生级科学问答上Qwen3.5-35B-A3B模型从76.3%提升到了82.8%绝对提升6.5个百分点。在代码生成测试LiveCodeBench v6上Qwen3.5-27B模型从63.9%一跃提升到73.3%绝对提升高达9.4个百分点。在被称为人类最后一次考试的HLE测试覆盖各学科极端前沿题目上多个模型也有持续的提升。更重要的是这种提升不仅出现在一种模型上而是跨越了六种完全不同架构和规模的模型包括阿里的Qwen3.5系列、OpenAI的开源模型gpt-oss系列以及谷歌的Gemma-4-31B。无论是稠密模型每层都激活全部参数还是混合专家模型每次只激活一小部分参数都观察到了类似的规律。在那些日常性的创意写作任务WritingBench和安全性测试Air-Bench上该方法几乎没有带来负面影响性能变化在统计误差范围内。这验证了研究团队的核心判断对于那些本来就不存在对齐扰动的场景自信解码会自动回退到使用最后一层不会帮倒忙。六、基础模型对比揭示的秘密为了进一步确认对齐税确实存在研究团队做了一个对照实验把经过对齐训练的指令模型Instruct版本和只经过预训练的基础模型Base版本进行对比。结果非常清晰自信解码对指令模型的平均提升是2.6个百分点而对基础模型的平均提升只有1.1个百分点。差距不是一点点而是超过了一倍。更有趣的是在HLE测试上标准解码下指令模型9.2%表现居然比基础模型8.0%还要差意味着对齐训练本身在最难的题目上反而造成了伤害。但用了自信解码之后指令模型的成绩回升到11.2%不仅超过了基础模型还大幅超越了它自己的标准解码版本。在词语替换率这个微观指标上也能看到这种差异的印记指令模型在推理时有12.8%的词语被自信解码识别为经历了扰动而基础模型只有10.4%在这些被识别出的词语中约有21%最终被替换为更精准的词汇这意味着整体词语替换率约为2.6%指令模型对比2.36%基础模型。这些数字精确地反映了对齐训练在最后几层留下的痕迹。七、任务越难效果越惊人研究团队还做了一个非常有启发性的分层实验把数学题按照难度分成四个等级然后对比标准解码和自信解码在不同难度层级的表现差异。对于最简单的题目模型本来就能轻松解决的两种方法的差距很小自信解码甚至略有下降约0.1到0.4个百分点这符合预期——简单题目的推理路径天然就接近通用表达几乎不存在对齐干扰。但从中等难度开始差距急剧拉开。在最难的第四级题目上对于gpt-oss-20b模型标准解码的准确率仅有1.1%几乎完全失效而自信解码将其提升到了23.5%绝对提升高达22.4个百分点。对于Qwen3.5-35B-A3B模型最难级别的题目从0.3%提升到了7.5%。这个规律说明自信解码的价值与任务难度高度相关越是需要精密推理链条的任务最后几层的对齐扰动对结果的伤害越大自信解码能够发挥的价值也就越大。八、并非万能——方法的局限与适用边界当然这项研究同样诚实地记录了方法不奏效的情况。对于Qwen3.5-9B这个较小的模型只有32层自信解码在GPQA Diamond上反而带来了轻微下降从64.6%降到62.1%。研究团队分析了背后的原因较小的模型层数更少用于精炼推理的中间走廊更窄而且层与层之间存在不同类型的注意力机制交替线性注意力层与全注意力层交替出现导致相邻层之间的表示空间本身就存在较大的几何跳变。在这种情况下熵谷信号容易被架构本身的噪音所掩盖自信解码有时会错误地停在一个尚未完成推理的层上。这说明自信解码更适合那些层数较深、同类型层在末尾连续出现、精炼走廊足够宽的模型。对于较小的混合架构模型这个方法需要更谨慎地应用甚至需要额外的机制来过滤架构噪音。九、与已有方法的比较在学术界已经有一些类似思路的方法研究团队也将自信解码与其中最有代表性的两种进行了对比DoLa通过对比不同层的预测来减少幻觉和SLED通过追踪逻辑单元演化趋势来校正输出。结果显示在同样的混合专家架构上自信解码的表现明显优于这两种方法。以GPQA Diamond为例标准解码基线是76.3%DoLa提升到77.3%SLED提升到78.8%而自信解码达到了82.8%。这种差距有其结构性原因。DoLa和SLED都是基于对比不同层的差异来工作的这要求被对比的层处于相似的几何空间中。然而在混合架构中不同类型层之间的表示空间本身就存在不连续性对比信号因此被稀释。自信解码则完全不依赖于层间对比而是独立评估每一层的绝对置信度因此对架构异质性更为鲁棒。说到底这项研究揭示了一个深刻而实用的道理AI大脑的最后发言并不总是最聪明的发言。就像一个优秀学生在考场上最初的直觉反应有时比反复修改后的答案更准确一样大语言模型在完整推理之后但进入最终礼仪包装之前的那一刻往往才是它真正最聪明的时刻。这项研究的贡献不仅是一个具体的工程技术更是对当前AI训练范式的一次有价值的审视我们在让AI更安全、更礼貌的过程中是否在某些场景下无意中损害了它的推理能力自信解码提供了一种在不重新训练模型的前提下至少在推理时弥补这种损害的方式。对于那些每天使用AI工具的普通人来说这意味着未来的AI助手在回答复杂问题时可能会更精准在做数学、写代码、解释科学概念时会减少那种听起来正确但细节模糊的回答。对于AI研究人员来说这项工作指出了一个值得深入探索的方向未来的训练方法是否可以把对齐约束和核心推理分开施加在网络的不同部分从根本上解决这个计划与表达之间的矛盾。对于有兴趣进一步了解技术细节的读者可以通过arXiv:2606.21906这个编号找到完整论文代码也已在GitHub上以QwenLM/Confident-Decoding项目名称开源发布。---QAQ1大语言模型的对齐税是什么意思会带来哪些具体问题A大语言模型在经过安全性和礼貌性训练后最后几层会倾向于把精准的专业词汇替换为更通用、更保守的表达这种现象被称为对齐税。在日常对话中这是有益的护栏但在解答复杂的数学、科学或编程问题时它会破坏推理链条的精密性导致答案变得模糊或不够准确。研究发现约16%的词语在最后一层经历了这种扰动。Q2自信解码Confident Decoding需要重新训练AI模型吗普通用户能用到吗A不需要重新训练任何模型。自信解码是一种纯推理时的方法完全不改变模型权重也不截断网络的计算只是改变了最终采用哪一层的输出来决定词汇选择。由于它已经在vLLM等工业级推理引擎上实现延迟增加不超过2%内存开销几乎为零因此有望直接集成到已有的AI服务中普通用户无需任何操作就能间接受益。Q3自信解码在所有AI模型上都有效吗有什么限制条件A自信解码并非对所有模型都有效。研究发现它对层数较深如40层以上、结构相对均匀的大型模型效果最好而对于层数较少如32层且使用线性注意力与全注意力交替的小型混合架构模型效果有时反而略有下降。核心原因是较小模型的精炼走廊较窄层间架构差异产生的噪音容易掩盖真正的熵谷信号导致方法偶尔选错层。