小样本评测置信区间样本少时别把 2 分差距当胜利很多 AI 产品早期评测样本很少可能只有几十条真实任务。模型 A 比模型 B 高 2 分就说 A 更好这很危险。样本少时分数波动很大。没有置信区间就很难判断差距是不是随机噪声。小样本评测要更谨慎。样本越少结论越要克制。一、平均分不够flowchart TD A[Small Eval Set] -- B[Mean Score] A -- C[Variance] B -- D[Confidence Interval] C -- D两个模型平均分接近时方差可能决定结论是否可靠。平均分最大的问题是把不确定性压扁成一个数字。20 个样本里赢 2 分和 2000 个样本里赢 2 分含义完全不同。前者可能只是抽到了更适合某个模型的样本后者才更可能反映稳定差异。因此评测报告里应该同时展示样本量、均值、标准差和置信区间。二、Bootstrap 很实用可以对样本重复抽样估计分数分布。import random def bootstrap(scores, n1000): means [] for _ in range(n): sample [random.choice(scores) for _ in scores] means.append(sum(sample) / len(sample)) return sorted(means)取 2.5% 和 97.5% 分位可以得到近似 95% 区间。Bootstrap 的好处是直观不要求我们强行假设分数服从正态分布。相比之下传统的 t 检验依赖正态假设对偏态分布容易误判。尤其是 LLM 评测中分数常常是离散的、偏斜的甚至包含大量满分和零分。重复抽样能让团队看到“如果重新抽一批类似样本平均分可能落在哪个范围”这比单个均值更接近真实风险。三、比较差值区间不要只看 A 和 B 各自区间也要看差值分布。delta score_a - score_b ci95 [-0.8, 3.1]如果差值区间跨过 0就不能自信地说 A 胜出。最多说“当前样本下 A 略高但证据不足”。差值区间也能帮助确定下一步。区间很宽说明样本太少或波动太大区间整体大于 0说明 A 的优势更可信区间靠近 0即使不跨 0也要评估收益是否值得上线成本。统计显著不等于业务显著0.3 分的稳定提升可能不值得一次复杂迁移。反过来0.5 分但区间很宽的提升虽然统计不足但如果迁移成本极低也可以作为观察候选。决策要同时看效果幅度、置信宽度和落地成本。四、补样本比硬解释更有用样本太少时与其写复杂解释不如补关键场景样本。尤其是线上高频任务、失败高风险任务。sample_plan: high_frequency: 50 high_risk: 30 edge_cases: 20评测集不是越大越好但要覆盖真实风险。补样本时不要平均用力。优先补高频、高风险和模型分歧大的样本因为这些样本最能缩小决策不确定性。还可以把线上失败案例纳入回归集让评测集随着产品一起成长。小样本阶段的正确姿势不是假装很确定而是快速发现还缺哪些证据。报告结论时也要使用克制语言。可以写“当前样本下观察到提升仍需补充高风险场景验证”而不是直接写“模型 A 全面优于模型 B”。统计表达越诚实产品决策越稳。上线决策也可以设置分层门槛。普通体验优化允许较宽区间高风险任务则要求差值区间明显为正并且关键子集不能退化。不同风险使用同一套统计门槛本身就是不严谨。五、总结小样本评测要报告方差和置信区间可以用 Bootstrap 估计分数分布和模型差值区间。样本少时别把 2 分差距当胜利。证据不足就诚实说证据不足。