上交大与XYZ AI Lab联手破解AI“功过难辨“难题
这项由上海交通大学人工智能学院与XYZ AI Lab联合开展的研究以预印本形式发布于2026年6月论文编号为arXiv:2606.09348感兴趣的读者可通过该编号查询完整论文。当你雇了一个助手帮你去图书馆查资料两小时后他回来交给你一份报告。如果报告写得很好你会夸他干得不错如果报告一团糟你会说你搞砸了。但问题是这两小时里他做了几十件事——选了哪几个书架、问了哪位管理员、翻了哪些目录、记了哪些笔记——你只知道最终结果好不好却完全不知道这几十步里哪些是关键神来之笔、哪些是白费功夫。更麻烦的是一份成功的报告里可能夹杂着几次走错书架的弯路而一份失败的报告里也可能包含几条真正有价值的线索。这正是今天要介绍的研究所面对的核心难题研究者们将其称为长程信用分配问题。为了解决这个困扰AI训练领域多年的难题研究团队提出了一套名为PBSDPrivileged Bayesian Self-Distillation特权贝叶斯自蒸馏的方法其核心思路优雅而精妙通过一种数学工具让AI系统在回顾自己走过的每一步时能够判断这一步究竟是帮了我最终得到正确答案还是拖了我的后腿。一、为什么AI很难知道自己哪一步做得对要真正理解这个问题的难度需要先理解现代AI智能体是怎么工作的。以搜索类AI智能体为例它面对一个复杂问题时不是直接给出答案而是像一位调查记者一样反复搜索网络、阅读网页、提炼信息、再搜索、再阅读经过几十乃至几百轮的信息收集与思考最终才给出答案。整个过程可能涉及数万乃至数十万个文字符号的生成。这套过程中AI训练通常依赖一种叫做强化学习的机制其原理和训练狗狗差不多做对了给奖励做错了给惩罚。然而问题在于奖励只在最终答案出来之后才发放也就是只有一次信号而整个过程中的数百步行为全部笼统地被这一个信号覆盖——全部行为统一奖励或者全部行为统一惩罚。这就好比训练那只狗时它做了一百个动作你在最后才说一声好或者不好狗根本无从判断这一百个动作里哪些该保留、哪些该改掉。更糟糕的是一次成功的探索往往包含一些多余甚至有误导性的动作而一次失败的探索里却可能有几个真正有价值的中间步骤。如果对所有步骤一刀切地奖励或惩罚AI就很难真正学到什么样的中间行为才是有效的。研究者们也调研了现有的其他解决方案发现每种方案都有明显局限。依赖外部评分员来给每一步打分的方法成本太高而且评分标准很难设计得足够精准。用简单规则来估算中间步骤价值的方法虽然便宜但容易被AI钻空子——AI会学会满足规则表面要求而不是真正做有效的搜索。通过大量模拟未来可能性来估算当前步骤价值的方法又太耗计算资源在几百轮交互的长程任务中根本用不起。还有一种方法是让AI直接模仿一个知道答案的教师版本的自己但这样做会让AI学到一些在真实使用时不可能有的捷径导致实际表现反而变差。正是面对这些困境PBSD提供了一条新的路径。二、贝叶斯定理把结果侧的难题转化为行为侧的易题PBSD的核心数学工具是贝叶斯定理这个定理在日常生活中其实并不陌生。以医院检测为例如果你做了一个癌症筛查结果呈阳性你想知道自己真的患癌的概率有多高。这个概率取决于两件事一是你在做检测之前患癌的背景概率先验概率二是这个检测本身的准确率。贝叶斯定理就是一个把这两件事结合起来计算出在看到检测结果之后患癌概率是多少的公式。研究团队把同样的逻辑用到了AI智能体的轨迹评估上。他们先定义了一个衡量某条搜索路径整体质量的支持分数如果AI走过这条路之后正确答案变得更可能出现那么这条路就是有价值的反之则是有害的。用数学语言说这个分数是观察到这条轨迹之后正确答案的概率除以没有任何轨迹信息时正确答案的概率再取对数。但问题在于要直接计算观察到这条轨迹后正确答案的概率极其困难因为这需要把从当前状态出发的所有可能未来路径都考虑一遍计算量是天文数字。贝叶斯定理在这里发挥了关键作用它允许研究者把这个难以计算的答案侧问题等价地转化成一个容易计算的行为侧问题。转化后的问题变成了比较同一条轨迹在两种条件下出现的可能性之比——一种是普通AI学生模型生成这条轨迹的可能性另一种是提前知道正确答案的特权AI教师模型生成同一条轨迹的可能性。如果教师模型认为这步行为很合理说明这步行为确实有助于找到正确答案如果教师模型觉得这步行为很奇怪说明这步行为可能是在走弯路。这两个数值都可以直接从模型的输出中读取不需要任何额外的搜索或模拟。更妙的是由于搜索过程是一步一步展开的这个总体的支持分数可以被自然地拆解成每一步的单步证据分数每一步的分数就是该步行为在教师模型下的对数概率减去在学生模型下的对数概率。这样每一步中间行为对最终正确答案的贡献就有了一个明确、可计算的数值表示。三、教师与学生一个模型扮演两个角色这里可能有读者好奇教师模型和学生模型是两个不同的AI吗研究团队的设计非常巧妙两者实际上是同一个模型只是输入的信息不同。学生模型在正常推理时并不知道答案而教师模型则通过一段特殊的提示词在输入端额外提供了正确答案。这意味着教师模型实际上是开卷考试状态下的同一个AI而不需要训练一个独立的、更强大的外部教师。这种设计有几个显著的好处。首先不需要额外的模型存储和计算开销。其次教师模型和学生模型共享同样的推理风格和语言习惯不会出现教师用的是一种解题思路学生根本理解不了的情况。第三也是最重要的一点学生模型并不直接模仿教师模型的行为而只是用教师模型的偏好来对自己已经生成的行为打分然后根据分数调整训练权重。正确答案的信息只通过一个数值分数渗透进来而不是作为行为模板被直接复制从而避免了信息泄露的风险——即AI学到了一些在实际使用中不可能有的捷径。四、把分数变成训练信号温柔而精准的重新分配有了每一步的证据分数PBSD接下来的工作是把这些分数转化为实际的训练信号。现有的主流训练方法如GRPO会给整条轨迹计算一个统一的优势分数——这条轨迹比平均水平好多少或者差多少——然后把同样的分数分配给轨迹中的每一步。PBSD在这个基础上做了精细化调整每一步的最终训练强度等于轨迹整体优势乘以一个根据贝叶斯证据分数计算出来的调整系数。这个调整系数的计算用了一个tanh函数一种S形曲线其特点是对较大的证据值反应明显而对接近零的证据值几乎没有反应并且有明确的上下限。具体来说对于一条整体成功的轨迹单步证据分数高的步骤会获得更强的正向训练激励而证据分数低甚至为负的步骤会获得相对较弱的激励不至于因为碰巧在一条成功轨迹里就被强化。对于一条整体失败的轨迹证据分数为负的步骤会受到更强的惩罚而证据分数为正的步骤则会受到相对较轻的惩罚因为它们在客观上是有价值的不应该被全盘否定。这种设计的哲学是保留整体判断细化局部分配。最终正确与否仍然是训练的主要依据贝叶斯证据分数只是在这个主要信号内部做精细的权重再分配不额外引入新的训练目标因此不会破坏训练过程的稳定性。研究团队还发现了一个实践中的重要细节大多数步骤的证据分数在数值上非常接近零换言之大多数步骤对于教师模型和学生模型来说几乎是无差别的。在这种情况下分数的正负号更多是由随机噪声决定的而不是真正反映了该步骤的价值。如果把这些低信噪比的分数也纳入权重调整反而会引入无意义的随机扰动。为此研究团队设置了一对过滤阈值只有当证据分数的绝对值超过一定门槛才真正触发权重调整低于门槛的步骤一律按统一权重处理。由于正向证据和负向证据的可靠性存在不对称性两个方向的阈值也分别设定分别为0.001和0.003这样大约过滤掉了30%信噪比最低的步骤。五、针对MoE模型的特殊处理实验中使用的模型是一类叫做混合专家模型Mixture of ExpertsMoE的特殊架构。这类模型在处理不同输入时会动态调用不同的内部专家模块可以用餐厅里不同厨师负责不同菜式来理解。这种结构带来了一个微妙的问题在计算贝叶斯证据分数时教师模型和学生模型必须在完全对等的条件下对同一段文本打分才能保证分数差异真正反映的是知不知道答案的区别而不是调用了哪个专家模块的区别。现有的一种训练技术R3路由重放会在训练时复用模型在推理时调用过的专家路由以保持训练和推理行为的一致性。但如果在计算证据分数时也使用这套复用路由就可能出现教师版本和学生版本调用了不同的专家模块导致两者的分数差异反映的是路由差异而非真正的知识差异。研究团队的解决方案是在计算证据分数时让教师模型和学生模型都重新自由决定调用哪些专家使两者处于可比的基准线上而在实际更新模型参数时仍然使用路由复用技术。这个细节在消融实验中被证明至关重要不做这个处理时模型性能从40.87骤降至27.75几乎崩溃。六、实验结果用更少的训练换来更强的能力研究团队在一个参数量达300亿、专家激活参数约30亿的大型MoE模型上进行了实验。训练数据方面他们首先用维基百科构建知识图谱并合成约2100条搜索轨迹再结合另一个开源数据集中的约5400条轨迹共7500条数据用于监督微调。在此基础上他们额外构建了575条数据用于强化学习训练并保留200条作为验证集。整个强化学习过程在64K上下文长度限制下进行每条轨迹最多允许300轮工具调用。评测在四个具有挑战性的基准测试上进行涵盖英文网页浏览、中文多跳问答、通用AI助手能力和深度搜索能力评测时使用的上下文长度放宽到256K比训练时长得多这也是一个对泛化能力的严格考验。在最直接的比较中PBSD与基线方法GRPO相比在自建的域内验证集上高出2.62个百分点40.87对38.25在独立的BrowseComp测试集上高出3.5个百分点35.83对32.33而且在简单、中等、困难三个难度段上均有提升困难题的提升尤为明显4.50对2.25。从训练曲线来看PBSD不仅最终得分更高而且在前112步内就能更快地收敛到较好的性能水平训练过程也更加平稳。与其他几种方法的横向对比同样说明了问题。OPSD一种直接让AI模仿教师行为的方法得分为33.25反而不如单纯的GRPO这印证了直接模仿教师行为可能带来信息泄露和训练不稳定的隐患。GEAR和RLSD两种方法的得分分别为36.50和34.25均低于PBSD的40.87。未经强化学习、只做监督微调的基线模型得分为31.75所有强化学习方法都优于它。在更广泛的跨基准测试中PBSD的表现同样亮眼。在BrowseComp上PBSD成为所有经过训练的智能体中得分最高的46.21超过了使用数万乃至十万量级训练数据的多个竞争模型。在GAIA文本任务上PBSD达到81.10是所有受训智能体中最高的。在xBench深度搜索任务上PBSD达到71.00仅次于Tongyi-DR-30B的75.0。考虑到PBSD只用了8000条训练数据并在64K上下文下训练这些成绩尤为可观。研究团队还观察了训练过程中模型行为的变化规律发现了几个有意思的现象。随着训练推进模型的搜索轮数增加了但每轮生成的文字反而减少了总token数量明显下降。这说明模型正在从废话多、思考冗长转变为简短有力、多次聚焦搜索更像一个经验丰富的研究员而不是一个啰嗦的新手。与此同时教师模型比学生模型给出更高分的步骤比例在稳步上升说明学生模型生成的中间步骤越来越符合对最终答案有帮助的标准。教师和学生之间的分数差距也在缩小说明学生模型越来越能生成与正确答案方向一致的行为——而这一切都是在没有直接模仿教师的情况下自然涌现的。七、消融实验三个设计缺一不可研究团队通过系统的消融实验验证了PBSD各个设计细节的必要性。关于路由重放解耦已经在上文提到去掉这一设计会导致性能骤降这是最关键的工程细节。关于tanh调制的敏感度参数δ研究团队测试了0.1、0.5、1.0和2.0四个取值。δ越小证据分数对训练权重的影响越大δ越大调整越平缓趋近于GRPO的均匀分配。结果显示δ0.1效果最好BC(300)得分为35.83随着δ增大性能单调下降δ2.0时降至32.00从侧面证明了贝叶斯证据分数提供的信号确实有效而不是噪声。关于低信噪比过滤阈值研究团队测试了从完全不过滤到过滤40%的多个方案。完全不过滤时模型得到的是充满噪声的信号性能只有34.87过滤10%时效果改善有限过滤30%时达到最佳40.87过滤40%时又开始退步因为此时有价值的信息被过度丢弃。这个倒U形的结果说明适度过滤是提高信号质量的必要手段但过犹不及。说到底PBSD做的事情可以用一句话概括在AI知道自己走的这条路是对是错之后回过头来审视路上的每一步用一套数学工具客观地判断哪些步骤真正帮助了自己走向终点、哪些步骤只是在原地打转然后在下次训练时给有价值的步骤多打气、给无价值的步骤少强化。这套方法不需要外部裁判、不需要昂贵的模拟搜索、不会泄露推理时不应该有的信息而且可以直接插进现有的训练流程里不用改变整体框架。当然这套方法也有它的局限。它依赖于每道题都有一个明确、可验证的标准答案——在数学题、知识检索类任务中这不是问题但在那些答案本身就存在多种可能性、或者无法被自动验证的开放性任务中这套机制就需要做相应的调整。研究者们也指出如果模型本身的概率估计不够准确计算出来的证据分数也可能失真。未来的研究方向包括用可学习的验证器来替代硬编码的标准答案使这套信用分配方法能够扩展到更多类型的任务中去。对于普通读者来说这项研究意味着未来的AI助手在完成复杂的查询和研究任务时不仅会越来越准确而且会越来越高效——更少的废话更精准的搜索更直接地切入问题核心。不妨思考这样一个问题如果一个AI助手能够精准地知道自己每一步操作的价值它会如何改变你处理复杂信息查询的方式对这项研究有兴趣深入了解的读者可以通过arXiv编号2606.09348查阅完整论文。QAQ1PBSD中的教师模型和学生模型有什么区别需要训练两个不同的模型吗A不需要训练两个模型。PBSD中的教师模型和学生模型是同一个模型区别只在于输入的信息不同。教师模型在推理时额外被提供了正确答案相当于开卷考试状态学生模型则是正常推理不知道答案。两者生成同一段轨迹的概率之差就反映了该步骤对最终答案的支持程度。这种设计避免了维护额外模型的成本也避免了直接模仿教师行为带来的信息泄露问题。Q2PBSD为什么要过滤掉部分证据分数接近零的步骤而不是用全部步骤来训练A因为大多数中间步骤的证据分数在数值上非常接近零这时分数的正负号更多是由随机噪声决定的并不真正反映该步骤的价值。如果把这些低质量的信号也用于调整训练权重反而会给模型引入无意义的随机干扰。研究发现过滤掉约30%信噪比最低的步骤效果最好过滤太少噪声太多过滤太多则会丢掉有价值的信息。Q3PBSD在混合专家模型上训练时为什么要对证据分数计算做特殊处理A混合专家模型在推理时会动态选择调用哪些内部专家模块不同的运行条件可能触发不同的专家组合。如果计算教师模型和学生模型的概率时两者调用的专家模块不同那么两者之间的概率差异就可能来自专家选择不同而非知不知道答案从而产生错误的证据分数。PBSD的解决方案是计算证据分数时让两者都重新自由选择专家确保对比条件一致只在更新模型参数时才使用路由复用技术。实验证明不做这个处理会导致性能骤降。