67 个模型横评揭示残酷真相:组合 LLM 的增益受限于“共失败率“,不是模型越多越好
来源arXiv:2606.27288 · 2026年6月25日论文When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models核心标签Co-Failure · Multi-Model · Routing · Voting · Mixture-of-Agents 为什么你现在应该读这篇如果你在做多模型/多 Agent 系统大概率相信组合多个模型能提升效果。这篇论文用 67 个前沿模型的实验告诉你组合的增益不来自模型数量而来自失败模式的互补性——如果所有模型在同一问题上同时失败加再多模型也没用。论文提出了共失败率β概念任何输出单一成员模型答案的策略准确率无法超过 (1-β)。67 个模型实测数学题β0.052理论上限97.8%代码β0.079GPQA自由回答β0.127。三件做多模型系统的人不能不知道的事① 共失败率β比成对相关性ρ更重要传统诊断用成对错误相关性ρ衡量模型间差异。但论文证明有相同ρ的错误分布可能有完全不同的β。ρ低不意味着β低——两个模型可能平均来看错误不相关但在特定难题上同时翻车。② 传统模型系统性低估尾部风险约2.5倍用单因子模型和 Gaussian copula 预测的β0.023实际观测β0.052——低估约2.5倍。这意味着你以为组合系统能达到97.7%准确率实际上限只有94.8%。③ 组合模型很少能在没有强路由信号的情况下超越单一最佳模型加更多模型就更好是错觉。除非你有强的查询级路由信号知道哪个模型擅长哪类问题否则简单组合的收益微乎其微。如果你正在做(1) 多模型路由系统(2) Mixture-of-Agents 架构(3) 多模型投票/级联下面的细节可以直接搬。论文元信息来源arXiv:2606.27288 · 2026年6月25日作者Josef Chen (Josef Liyanjun Chen)规模67个前沿模型21家供应商核心创新共失败上限理论 β有限样本证书 67模型实测验证核心场景你的多模型系统在难题上集体翻车想象一下你用 5 个模型做路由系统在简单题上每个模型都能答对组合准确率 95%。但在某道难题上5 个模型全部答错——这就是共失败。不管你怎么路由、怎么投票、怎么级联这道题都答不对。β 就是衡量所有模型同时失败的概率。β0.052 意味着大约每 20 道题就有 1 道所有模型都答不对——这道题的组合系统准确率上限是 0%。共失败上限理论组合系统准确率上限 1 - β β 所有模型在同一查询上同时出错的比率 数学题: β 0.052 → 上限 94.8% 代码题: β 0.079 → 上限 92.1% GPQA自由: β 0.127 → 上限 87.3% 传统预测: β 0.023 → 以为上限 97.7% 实际观测: β 0.052 → 真实上限 94.8% 差距: 低估约 2.5 倍β vs ρ 的关键区别指标说明局限ρ成对错误相关性传统诊断指标衡量两个模型错误之间的相关性无法识别β——相同ρ可能有不同ββ共失败率所有模型同时失败的概率直接决定组合系统准确率上限关键洞察ρ低不意味着β低。两个模型可能平均来看错误不相关ρ低但在特定难题上同时翻车β高。67模型实测数据任务观测β理论预测β低估倍数开放式数学0.0520.0232.5x执行评分代码0.079——GPQA自由回答0.127——三种组合策略的约束策略机制准确率上限路由Routing根据查询选择最佳模型≤ 1-β投票Voting多数表决≤ 1-β级联Cascade依次尝试直到成功≤ 1-β融合Fusion合并多个模型输出≤ 1-β混合AgentMoA多Agent协作≤ 1-β所有输出单一成员模型答案的策略上限都是 (1-β)——无一例外。关键发现收益来自互补性不是数量低ρ的异构集成优于高ρ的 Self-MoA答题格式影响βGPQA多选题→自由回答β从低升到0.127——格式变了共失败模式也变无强路由信号则组合无效没有知道哪个模型擅长哪类问题的能力组合很少能超越单一最佳模型So What三类人的行动清单 工程师先测β再决定是否做多模型组合—— 用 Clopper-Pearson 边界在训练路由器之前就估算β。如果β0.1组合收益有限关注失败模式的互补性而非模型数量– 选模型时看在哪些问题上互补而非模型多强明天就能做用你的多模型系统跑 100 道题统计所有模型都答错的题数——这就是β的粗估 技术管理者多模型组合不是加模型而是找互补– 投入资源找失败模式互补的模型组合而非堆叠更多同质模型β是组合系统的天花板– 评估多模型方案时先算β确定理论上限再决定投入是否值得明天就能做让团队评估当前多模型系统的β值——如果β0.1说明天花板很低需要寻找互补模型而非加更多同类模型 创业者/PM模型数量不是卖点– 67个模型的实验证明数量不等于质量。卖点应该是失败模式互补性路由信号是真正的差异化– 有强查询级路由信号的多模型系统才能超越单一最佳模型明天就能做在产品宣传中把我们用了N个模型改为我们的模型组合在不同问题上互补——更诚实也更有说服力⚠️ 方法论局限仅覆盖输出单一答案的策略β上限适用于路由/投票/级联但对融合多个模型输出生成新答案的策略可能不适用任务覆盖有限主要在数学、代码、GPQA上测试其他任务类型的β未知67个模型可能不代表全部不同模型组合的β可能不同21家供应商的覆盖是否充分待验证路由信号获取论文指出强路由信号是超越单一最佳模型的条件但如何获取强路由信号未深入讨论延伸阅读 论文https://arxiv.org/abs/2606.27288 互补阅读论文① Multi-Agent Orchestration (arXiv:2601.13671) —— 本文揭示多模型组合的瓶颈该论文给出多Agent编排架构 实践参考OpenClaw 的多技能体系本质是单模型多技能而非多模型——本文的β约束对单模型架构不适用但跨模型协作时需要注意⏱️如果只有 5 分钟看共失败上限公式1-β 67模型实测数据表就够了。核心 takeaway 是组合模型的增益受限于共失败率β不是模型越多越好。路易乔布斯 © 2026 · AI论文观察 · Multi-Model SystemsarXiv:2606.27288 · 2026.06.28基于公开论文研读