模型评测置信区间一次跑分不能说明真实差距一、排行榜分数不是绝对事实模型评测中经常看到两个模型分数相差 0.3 或 0.5然后直接得出某个模型更强的结论。这个判断并不总是可靠。评测集大小、样本分布、随机采样、解码参数和评分器误差都会让分数产生波动。如果没有置信区间一次跑分只能说明这次实验的结果不能证明模型能力存在稳定差距。尤其在差距很小的场景里直接排序很容易过度解释。二、评测分数要带不确定性flowchart TD A[评测样本] -- B[模型输出] B -- C[评分器] C -- D[样本级得分] D -- E[均值] D -- F[置信区间]样本级得分比最终均值更重要。只保存平均分后续无法分析波动。保存每个样本的得分后可以计算 bootstrap 置信区间也可以检查哪些题型造成差异。置信区间反映的是估计不确定性。两个模型平均分不同但区间高度重叠时不宜声称显著优于。更稳的表述是“当前评测未能证明稳定差异”。三、Bootstrap 是实用方法import random import numpy as np def bootstrap_ci(scores, rounds2000, alpha0.05): means [] n len(scores) for _ in range(rounds): sample [scores[random.randrange(n)] for _ in range(n)] means.append(np.mean(sample)) return np.percentile(means, [100 * alpha / 2, 100 * (1 - alpha / 2)])Bootstrap 不要求强分布假设适合很多评测场景。对每个模型保存样本级分数再对均值做重复采样就能得到一个近似区间。对两个模型比较时更推荐计算“样本级差值”的置信区间。因为同一批样本上两个模型的表现有关联直接比较两个独立区间会损失信息。model_compare: mean_diff: 0.42 ci_95: [-0.08, 0.91] conclusion: 差异不稳定四、评测报告要克制表达如果置信区间跨过 0就不要写“显著更好”。可以写“平均分略高但在当前样本规模下差异不稳定”。这种表达更长但更诚实。还要关注样本规模。样本太少时区间会很宽。与其在小样本上争 0.2 分不如增加样本、拆分题型、控制评分器一致性。评测的目标是减少不确定性不是制造精确幻觉。评测报告还应说明抽样方式。如果测试集来自固定题库置信区间只能反映该题库上的不确定性如果测试集是从更大任务分布中抽样则可以更谨慎地推断总体表现。二者含义不同不能混用。评分器本身也会引入方差。人工评分、LLM-as-judge 和规则评分的稳定性不同。若评分器不稳定应先评估评分一致性再讨论模型差异。否则区间里混入了评分噪声结论会变得更弱。多次运行同一模型也有必要。生成模型受采样参数、并发和后端实现影响输出可能波动。对关键比较可以固定解码参数并重复运行若干次报告运行间方差。这样能区分样本不确定性和模型输出不确定性。最后置信区间不是为了让报告变复杂而是为了防止过度承诺。统计表达越克制模型选型越稳。五、总结模型评测应保存样本级得分并给平均分和模型差异提供置信区间。小分差如果没有统计支撑不应被解释成稳定能力差距。一次跑分只是一次观测。把不确定性写进报告评测结论才更接近科学实验。