加州大学圣地亚哥分校AI训练师:教大模型“挑食“,效率飙升三倍
这项由加州大学圣地亚哥分校University of California, San Diego研究团队完成的工作以预印本形式发布于2026年6月18日论文编号为arXiv:2606.19750v1归类于计算机学习领域cs.LG。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。当你第一次学骑自行车教练会怎么教你大概率不会让你一上来就冲下陡坡也不会让你反复练习站在车旁边——那两种都没什么意义。真正好的教练会让你练那些稍微有点难但还能做到的动作比如在停车场慢慢骑直线然后尝试转弯。这背后有一条朴素的道理难度刚刚好的练习才最有价值。大型语言模型也就是像ChatGPT这类AI的训练其实面临着完全相同的困境。研究团队发现当你给AI出一道太简单的题它每次都答对学不到任何新东西出一道太难的题它每次都答错同样毫无收获。真正有价值的题目是那些AI有时能答对、有时答错的题——这类题能给AI提供最丰富的学习信号。问题是一个包含数万道题目的训练数据集里这类黄金难度的题目往往只是其中一小部分而且随着AI越来越聪明哪些题属于这个区间也在不断变化。加州大学圣地亚哥分校的研究团队针对这个问题提出了一套全新的解决方案名叫贝叶斯流形课程Bayesian Manifold Curriculum简称BMC。这套方案的核心思路并非只盯着难度刚好的题目而是同时考虑三件事这道题现在能教给AI多少东西生产力、训练过程中有没有覆盖足够多样化的题目类型多样性、以及这道题和最终想要考核AI的测试题有多相关效用。这三个维度共同构成了一个更完整的训练质量图景而不是简单地把所有问题压缩成一个难度分数。一、当AI遇到吃什么才长身体的问题要理解这项研究解决了什么问题先得理解现有AI训练的一个核心机制。目前训练大型语言模型推理能力主流方法叫做组相对策略优化GRPO、DAPO、GSPO等都属于这一类。简单说对同一道题AI会给出好几个不同的答案然后根据这些答案之间的好坏对比来调整自己。关键在于如果AI对同一道题的所有答案都是对的或者都是错的那这道题对训练毫无贡献——因为没有对比就没有信号就什么都学不到。现有的解决办法叫做动态采样Dynamic Sampling思路是把没用的题筛掉只保留那些有学习信号的题来训练。这个方法确实有效但代价是要花大量时间反复筛题等于多跑了几轮才能凑够一批有价值的题目训练时间因此大幅增加。更深层的问题在于现有方法都把每道题当成独立个体来看待——题A和题B之间没有任何关联学了A对B没有参考价值。但现实中代数方程题和函数题之间显然有共通之处AI学会了解代数方程对做函数题多少有帮助。忽视这种题目之间的内在联系意味着大量可以共享的信息被白白浪费了。此外还有一个常被忽视的问题训练数据集本身往往是不均衡的。以数学题为例一个数据集可能有80%是英文题只有20%是中文题。如果AI的训练只追求当前最有学习价值的题目很可能会一直往英文数学题里钻因为那里题目多容易找到难度刚好的题。最终AI在英文数学上进步飞快但中文数学就被晾在一边在相关测试上表现很差。这就是研究团队所说的数据集不均衡与前沿不均衡叠加造成的问题。研究团队意识到仅凭难度这一个维度来指导训练就像一个厨师只用盐来调味——有时候管用但缺少了酸甜苦辣的搭配很难做出真正好的料理。二、给AI的题库画一张地图BMC的第一步是为训练题库建立一张内部地图研究团队称之为潜在任务树Latent Task Tree。这里有个关键洞见AI在处理不同题目时大脑也就是其内部神经网络会产生不同的思考模式。通过检查AI在处理每道题时内部中间层的激活状态一组高维数字向量可以判断两道题在AI眼中有多相似。如果两道题的激活状态很接近说明AI用类似的思路来处理它们如果相差很远说明这两类题对AI而言是完全不同的认知挑战。研究团队用这些思考模式的相似度把所有题目组织成一棵从粗到细的层级树。整个过程是递归进行的先用PCA一种把高维数据压缩的数学工具可以理解为把一张复杂的3D地图展平成2D同时保留最重要的地形信息降维然后用UMAP一种保留局部邻居关系的映射方法进一步提取结构最后用HDBSCAN一种不需要预先指定分组数量、能自动发现大小不一的群落的聚类算法找出自然群落。每发现一个群落就递归地对这个群落内部继续做同样的操作直到某个子区域看起来已经足够简单、不需要再细分为止。判断足够简单的方法叫做图表测试Chart Test借鉴了数学中流形理论的思想一个全局复杂的空间在局部看来应该像一个简单平坦的区域。如果某个子集的内在维度已经很低、内部连通性也很好就说明这个子集可以被当作一个原子单位不需要再切分了。停止递归还有两个辅助条件HDBSCAN找不到合理的子群落或者子群落太小低于最小样本比例阈值。以DAPO-Math-17K这个数学训练数据集为例用Qwen3-8B-Base模型构建出来的任务树有50个节点最大深度为4层。根节点包含所有题目往下分出英文题77.85%和中文题18.80%等高层节点再往下则是欧几里得几何、数论、代数方程组等更细粒度的分类最细处能区分模运算、数字问题、最小整数等具体题型。这棵树并非人工标注的——没有人告诉算法这道题是几何题——所有分组完全来自AI自身对题目的内部感知。有趣的是人工事后检查这些分组时会发现它们往往和人类的直觉分类高度吻合甚至在某些细粒度上比人工分类更精准。同样的方法被应用于编程数据集、医学问答数据集、法律数据集、金融数据集、多模态几何题数据集等多个领域都能产生有意义的层级结构验证了这套方法的通用性。整棵树的构建时间相对于整个训练过程来说非常短暂——以DAPO-Math-17K为例构建时间约12分钟而整个训练需要25小时树的构建仅占总时间的0.8%。三、一个在题目地图上做决策的智能调度器有了这张题目地图BMC的第二步是在这张地图上做智能的采样决策。研究团队把这个过程比作一群智能体在树上向下爬行。每次要组成一批训练题目时就派出和批量大小相同数量的智能体每个智能体独立从树根出发根据当前对各个子树的期望价值信念选择往哪个方向走最终走到某片叶子即一道具体的题目。每个智能体在树的每个节点处都会对该节点的所有子节点做一次带随机性的抽签从每个子节点当前的高斯分布信念中各采一个样本值然后选择样本值最高的那个子节点继续往下走。这种方法在统计学里叫做汤普森采样Thompson Sampling是一种经典的在探索新领域和利用已知最优之间取得平衡的策略。在树的层级结构下使用它就叫做层级汤普森采样Hierarchical Thompson Sampling。这种设计有一个精妙的效果当某个子树的期望价值明显高于其他子树时多个智能体会不约而同地走进那个子树集中训练资源当多个子树的期望价值差不多时不同智能体会分散到不同子树保证批次内的多样性。这就自动实现了重点突破和广泛覆盖之间的动态平衡无需人工设置任何权重。每次训练完一批题目、获得AI的实际表现数据之后BMC会做两件事来更新这张地图上的信念。第一件事是更新各道题自身的预期学习价值估计。更新规则引入了一个叫做惊喜度的概念——新观测值与当前预期值的偏差除以当前不确定度得到一个标准化的意外程度。惊喜度越高说明当前信念越不可靠就越应该多参考新数据而少依赖旧历史惊喜度低时则保留更多历史积累的估计。此外如果一道题很久没被抽到它的不确定度会随时间逐渐增大通过一个叫做陈旧度的计数器来追踪这样调度器就会在适当时候重新去关注它避免遗忘了它可能已经变难或变容易了。第二件事是把单道题的更新沿着树向上传播。假设某道模运算题的学习价值上升了调度器不仅更新这道题本身还会更新数论节点、再更新英文题节点一路向上传播。这种传播用的是一种叫做经验贝叶斯Empirical Bayes的方法父节点的信念等于所有子节点信念的精度加权平均值。如果各子节点的信念比较一致父节点就比较有把握如果子节点之间差异很大说明这个子树内部情况复杂、异质性强就额外增加一个异质性项借鉴了医学荟萃分析中的DerSimonian-Laird方法让父节点信念变得更加保守、不那么自信从而在顶层采样时不会因为某个子树里少数几个好样本就过度集中资源。这套观测一道题、更新整棵树的机制使得BMC能够从有限的直接观测中推断出更大范围内的学习价值分布——不需要把每道题都亲自采样一遍就能对整个题目空间有一个合理的全局判断。四、三个维度的拉锯战生产力、多样性和效用研究团队用了大量实验来验证BMC并提出了一个非常重要的发现评价一个训练采样策略不能只看一个指标而需要同时审视三个维度而这三个维度之间并不总是一致的。在训练效率生产力方面研究团队跟踪了几个关键指标。有效比率代表每批次中真正提供了学习信号的题目占比也就是有些题AI的表现不全对也不全错的比率。平均奖励方差衡量每道题里AI给出的多个答案之间的分歧程度越高意味着学习信号越强。在Qwen3-8B和Qwen3-4B两个模型、GSPO和GRPO两种优化算法的实验中BMC和仅难度基线Difficulty Only即只考虑题目难度、不考虑题型结构的汤普森采样都将有效比率比均匀采样提升了约40%而训练墙钟时间与均匀采样相当远低于动态采样。动态采样虽然有效比率最高接近100%因为它强制筛选到全部有效才停止但耗时是其他方法的1.5到2倍。在多样性和信息共享方面研究团队设计了两个诊断指标。稀有度加权曝光衡量训练批次里有多少题目落在数据集中较少见的题型区域数值越高说明对稀有题型的覆盖越多。结果显示BMC的稀有度加权曝光介于仅树Tree Only只有结构、没有自适应信念更新的消融实验和仅难度之间——仅树因为完全不考虑学习价值、均匀分配探索资源所以对稀有题型覆盖最多仅难度因为全力追求学习价值、不在乎题型分布对稀有题型覆盖最少BMC则在两者之间取得平衡。结构增益则衡量任务树的分组能在多大程度上解释学习信号的分布规律——如果同一子树里的题目学习价值相近说明树的结构和AI内在的学习难度分布是对齐的。研究发现对于BMC和仅难度方法任务树所解释的学习信号变异程度都是随机基线的5到10倍甚至更多证明AI内部对题目的组织确实和学习难度高度相关——这恰恰是BMC能够通过树来传播信息的理论基础。在评估表现效用方面情况最为复杂。研究团队用Qwen3-8B-Base模型在六个不同基准上做了测试包括AIME2025、AIME2024竞赛级英文数学、AMC2023竞赛预选级英文数学、MATH500较宽泛的英文数学、CNMO24和CCEE24中文数学以及GPQA-Diamond研究生级科学题完全超出训练分布。没有任何一种方法在所有基准上都是最优的。动态采样在英文数学上表现很好但在中文数学和GPQA-Diamond上反而输给了均匀采样原因在于其批次构建方式先到先得地填满批次在数据集不均衡时会系统性地跳过中文题——当批次已经被大量有学习价值的英文题填满时还没来得及进入批次的有学习价值的中文题就被推迟到下一轮长期累积就形成了严重的中文题曝光不足。仅难度方法虽然避免了这个跳题问题但因为全局地从所有题目中挑难度合适的题仍然偏向于数据集里占多数的英文题。BMC在GPQA-Diamond上的表现特别突出超过所有其他方法这与其在训练过程中覆盖了更多稀有题型包括图表题、理科题等有关——这些题目虽然和测试题不完全相同但AI在处理多样化题型时培养出的泛化能力在面对完全陌生领域的科学推理时反而展现出来了。研究团队将这一现象称为评估死区evaluation deadzoneBMC为某些题型提供了很强的学习信号但这些题型对应的能力并没有被标准英文数学测试所衡量。这和梯度死区gradient deadzone指题目没有学习信号是完全不同的问题——不是学不到东西而是学到的东西没有被评估到。五、给训练目标装一个导航仪在观察到生产力、多样性和效用三个维度并不总是对齐之后研究团队自然而然地提出了一个问题能不能主动地把训练方向引导到更接近我想要测试的那类题于是他们设计了BMC的扩展版本BMC-TT代表Target目标。它的核心思路是把一批目标样例比如想要提升的测试题或者代表某种能力的参考题集也放进任务树的构建过程中通过比较训练题和目标样例在树中的分布为每个子树赋予一个效用得分——子树里目标样例比例越高就给这个子树更高的采样优先级。在汤普森采样下树时把这个效用得分叠加到标准的学习价值估计上就形成了一个既追求学习价值、又偏向目标相关区域的综合得分。研究团队用两个不同的目标分布来测试BMC-T一个目标设为AIME2024只盯着竞赛数学另一个目标设为所有测试基准的混合均衡地提升各方面。结果非常清晰以AIME2024为目标时模型在AIME类竞赛题上的提升最为显著以全混合为目标时中文数学等其他基准的表现得到了更均衡的提升整体表现更为全面。两种目标设置下训练生产力有效比率、奖励方差、训练集准确率几乎完全相同。这个实验证明了一件重要的事效用不等于生产力。如果训练AI时学到的所有东西都对所有测试有同等价值那么换目标方向不应该改变任何结果——但实验明确地证明了改变了。这意味着不同题型确实对不同能力的贡献是不同的而通过任务树的结构可以用相对粗略的题目在潜在空间中的距离来近似估计这种贡献并用它来引导训练方向。研究团队还注意到一个颇具启发性的边界情形GPQA-Diamond测试题研究生级科学题在任务树中被放在远离所有数学训练题的高层节点上这个节点下没有任何可以被采样的训练题。因此如果把GPQA-Diamond设为BMC-T的目标也找不到任何可以叠加效用得分的子树结果BMC-T退化为标准BMC。而标准BMC在GPQA-Diamond上的良好表现就来自于其广泛的多样性覆盖——当没有近邻的训练题可以直接对准目标时最好的策略就是尽可能覆盖更多样化的题型希望通过泛化的方式够到那个遥远的目标。六、稳定性测试树会随着AI进化而失效吗任务树是在训练开始前一次性构建的此后保持固定。但AI在训练过程中会不断变化它对题目的内部感知会不会也随之漂移导致一开始构建的树越来越失真研究团队专门为此做了结构漂移分析。他们比较了训练前后用同一模型构建的任务树以及用不同发展阶段模型对同一数据集构建的树发现树的结构确实会有变化但变化模式并不一致。对于Qwen3-8B训练后的树最大宽度有所增加从16增加到20最大分支因子也增大从13增加到17而对于编程模型DeepCoder训练后的树反而略微收缩对于Guru-7B树变得更深、层次更多但每层更窄。这说明RL训练确实会改变AI的内部组织方式但没有统一的方向。研究团队还实验了一种定期重建树的变体每训练100步就重新构建一棵树。结果显示与固定树相比性能差异非常微小——在某些基准上略有提升在另一些上略有下降。研究团队由此得出结论在目前实验的训练周期内固定树是一个足够好的近似不需要为了追求完美的结构同步而付出额外的计算代价。七、为什么要用AI自己的思维来分题而不是请外部专家帮忙研究团队在论文中专门讨论了为什么选择用模型自身的内部表示来构建任务树而不是借助外部手段。外部手段有很多选项可以用专门的语义嵌入模型比如专为文本相似度训练的检索模型来聚类题目可以请大型前沿模型给每道题打标签或分类可以用稀疏自编码器来提取模型的内部特征并以此聚类还可以训练一个专门预测这道题对AI有多少价值的评估模型。研究团队认为对于课程学习调度来说最重要的相似性不是人类眼中的题目相似性而是被训练模型眼中的题目相似性。同一道代数题的中文版和英文版对人类而言几乎完全相同但对某个阶段的AI来说可能是完全不同的认知挑战。外部嵌入模型会把两者归为同类但如果被训练模型在处理两者时激活了不同的内部模式那它们就应该在课程调度中被区别对待。使用模型自身的中间层表示确保了任务树与被训练模型如何组织题目空间保持一致而非与人类或另一个模型如何理解题目保持一致。此外使用自身表示还有一个实用优势不需要引入任何额外组件。训练任何大型语言模型都需要做前向传播来生成答案提取中间层的激活向量只需在这个过程中顺便保存一些数字不需要额外的API调用、不需要标注工作、不需要训练第二个模型。这让BMC可以直接插入现有的任何训练框架。归根结底这项研究的核心贡献可以这样理解训练AI不只是找到刚好够难的题目而是要绘制AI内心的题目地图理解不同题目之间的联系在保证训练效率的同时覆盖足够宽广的能力版图并且在需要时能够把资源精准地引导向最终想要提升的方向。这三件事——学得多、学得全、学得对——缺一不可而过去的方法往往只顾了第一件。对于普通人来说这项研究意味着未来你使用的AI助手可能会更擅长处理各种类型的问题而不只是在某个特定类型上特别厉害。也意味着训练一个AI所需的计算资源和时间可以更少因为每一次训练迭代都能物尽其用不会把宝贵的算力浪费在学不到东西的题目上。而研究所提出的这套框架因为只需要模型自身就能运行理论上可以应用于任何语言、任何领域、任何模态的AI训练。QAQ1贝叶斯流形课程BMC和普通的AI课程学习有什么本质区别A普通课程学习把每道训练题当成独立的只根据这道题现在难不难来决定要不要训练。BMC则先用AI自己处理题目时的内部状态把所有题目组成一棵层级树然后在这棵树上做决策。树里相邻的题目共享信息学了一道题会影响对附近题目的预期并且BMC同时考虑难度生产力、题型覆盖多样性和与目标测试的相关性效用三个维度而不是只看难度。Q2训练AI时为什么不能一直选最难的题来练这样不是进步最快吗A难度刚好居中的题才最有学习价值——太难的题AI每次都答错组内答案全部失败无法形成有效的对比信号AI学不到任何东西太容易的题每次都答对同样没有对比也是白费功夫。只有那些AI有时对有时错的题才能为训练提供真正有意义的反馈。此外只追最难的题会导致题型覆盖严重不均AI在某些题型上能力很强但其他题型几乎没有练习机会。Q3BMC-T中的目标分布是不是意味着把测试题也用来训练了这样算作弊吗A不算。目标样例只用来决定优先训练哪些类型的题它们本身不参与训练AI看不到这些题的答案也不会拿它们来做梯度更新。就像一个学生知道期末考试偏重几何于是多做几何练习题——这不算作弊只是有针对性地分配练习时间。当然如果把BMC-T用于严格的学术对比实验需要把目标集和最终测试集分开用一组题引导训练方向用另一组题做最终评估以确保评估的客观性。