2024 Nature:AI 模型如果反复吃自己的输出,为什么会“模型坍塌”?
2024 NatureAI 模型如果反复吃自己的输出为什么会“模型坍塌”1. Paper Information今天读的是 Nature 论文AI models collapse when trained on recursively generated data。Paper: AI models collapse when trained on recursively generated dataJournal: Nature 631, 755-759 (2024)DOI: https://doi.org/10.1038/s41586-024-07566-yOfficial link: https://www.nature.com/articles/s41586-024-07566-yCore question: 当未来模型的训练数据里混入大量前代模型生成内容时模型会不会越训越偏这篇论文最值得讲的地方不是“AI 生成内容质量差”这么简单而是一个更结构化的问题如果第 2 代模型训练在第 1 代模型生成的数据上第 3 代再训练在第 2 代输出上如此循环真实世界分布里的长尾信息会怎样论文给出的答案是会出现model collapse模型坍塌。它不是单次训练失败而是递归训练过程里逐步发生的分布退化。2. Why is the old route not enough?过去大模型扩展时一个常见直觉是数据越多越好。只要互联网上还能继续抓取文本、图像、代码模型就可以继续扩大训练集。但生成式 AI 普及以后这个前提开始变得不稳。公开网络内容里越来越多样本可能本来就是模型生成的。如果这些内容没有来源标记又被后续训练流程当成自然数据训练集就会出现一个闭环真实数据训练模型 - 模型生成内容进入网络 - 新模型把这些内容当成真实数据继续训练。问题在于模型生成样本不是原始分布本身而是模型对原始分布的近似。每一次近似都会带来误差递归多代之后误差不只是累加而会改变数据分布的形状。最先受伤的通常不是高频模式而是低频、罕见、但真实存在的模式也就是分布尾部。3. Core method论文把这个过程形式化为“递归生成数据训练”。设真实数据来自原始分布第一代模型学到一个近似分布。之后的新训练集不再只来自真实世界而是越来越多来自上一代模型的输出。直观地说模型每一代都在回答我看到的训练数据是什么样我就把世界学成什么样。如果上一代模型没有生成足够多的长尾样本下一代就会以为这些样本不重要甚至不存在。再下一代继续在这个变窄的分布上训练长尾就更难回来。这就是模型坍塌的核心机制模型不是突然坏掉而是在递归训练中逐步忘掉真实世界的多样性。4. Mechanism breakdown可以把递归训练想成三层误差第一层是采样误差。真实分布里本来就少见的样本在模型生成样本里更容易缺席。第二层是估计误差。下一代模型会把上一代样本的缺失理解成真实规律而不是采样不足。第三层是闭环放大。缺失一旦进入训练分布就会被下一代继续复制导致分布越来越窄。一个关键点是平均质量看起来可能还不错但长尾已经被抹掉。比如一个语言模型仍能写出流畅句子却越来越倾向于重复常见表达少见观点、少见语体、少数群体表述和罕见事实更容易消失。4.1 Formula lens论文中可以用一个简化的混合训练直觉来理解风险。第 (i1) 代训练分布可以看成真实数据、历史数据和模型生成数据的混合pi1αipθiβipiγip0,αiβiγi1 p_{i1} \alpha_i p_{\theta_i} \beta_i p_i \gamma_i p_0,\quad \alpha_i\beta_i\gamma_i1pi1αipθiβipiγip0,αiβiγi1这里 (p_0) 表示原始真实数据分布(p_i) 表示第 (i) 代训练数据分布(p_{\theta_i}) 表示第 (i) 代模型生成的分布。关键是 (\alpha_i)如果模型生成数据占比越来越高而 (\gamma_i) 代表的新鲜真实数据补给很低训练过程就更容易进入闭环。论文的理论分析还指出在某些高斯设置中递归训练会让分布方差收缩模型越来越确信一个更窄的世界Σn→0 \Sigma_n \rightarrow 0Σn→0这里 (\Sigma_n) 可以理解为第 (n) 代模型分布的方差结构。它趋近 0 的直觉是模型样本越来越集中多样性越来越少长尾越来越难保留。这两个公式都指向同一个解释模型坍塌不是因为“模型不会生成”而是因为生成分布被反复当作真实分布导致训练信号越来越贫血。5. How to read the experiments?论文用不同设置展示同一个现象当训练数据递归来自模型输出分布会退化。在简单分布实验中模型会先丢掉尾部再向更窄的模式集中。在图像或生成模型实验中样本多样性下降。在语言模型相关实验中生成文本会变得更重复错误模式也可能被复制。这里最重要的不是某个单一指标而是证据方向一致模型生成内容如果没有来源控制会把训练集从“真实世界样本”变成“模型对真实世界的二手摘要”。摘要再被摘要最后细节就没了。6. Engineering or research implications这篇论文对模型训练的启发很直接。第一数据来源谱系需要被记录。训练样本最好知道它来自人类、传感器、仿真系统还是某个模型版本。第二合成数据需要被当作特殊数据源管理而不是默认等价于真实数据。合成数据可以有价值尤其在稀缺任务、隐私约束或可控增强里但它需要过滤、配比和验证。第三训练集要保护长尾。只看平均质量、困惑度或主流 benchmark可能发现不了少数模式正在消失。第四持续训练要注入新鲜真实数据。递归闭环最危险的地方是模型以为自己看见了世界其实只是在看前代模型留下的影子。7. Do not overinterpret这篇论文不等于“合成数据不能用”。更准确的边界是合成数据如果有明确来源、质量过滤、任务验证并且和真实数据合理混合仍然可以提升训练效率。风险来自另一种场景网络内容被 AI 大规模改写来源标记缺失后续模型又把这些内容当作自然数据无差别吸收。这个场景下数据集看似变大真实信息量却可能变少。所以模型坍塌不是一个只属于实验室的概念。它提醒我们未来 AI 训练的瓶颈可能不只是算力也不只是数据量而是数据生态能否持续保留真实、多样、可追踪的信号。8. One-sentence summary模型坍塌最值得记住的一句话是AI 生成数据可以是工具但不能让模型在没有来源控制和真实数据补给的闭环里反复吃自己的输出。ReferencesShumailov et al. AI models collapse when trained on recursively generated data. Nature 631, 755-759 (2024). https://www.nature.com/articles/s41586-024-07566-yMuennighoff et al. Scaling Data-Constrained Language Models. JMLR 2025. https://www.jmlr.org/papers/v26/24-1000.htmlSoudry et al. The Implicit Bias of Gradient Descent on Separable Data. JMLR 2018. https://www.jmlr.org/papers/v19/18-188.html