BLEU/ROUGE/Perplexity/F1 Score
针对四种评估方法按照“内部机理 → 适用场景 → 本质优劣”的顺序逐一拆解最后再做一个多维度硬核对比帮你彻底理清它们的区别。1. BLEU双语评估替补出身最初为机器翻译设计IBM提出。核心逻辑基于n-gram 精确率Precision并附带短句惩罚因子BP。怎么算统计生成文本中有多少个 n 个连续单词n1~4出现在参考答案中除以生成文本的总 n-gram 数量即“命中数 / 生成总数”。短句惩罚BP如果生成文本比参考译文短会乘以一个小于1的惩罚系数防止模型“偷懒”只输出高频词。最终得分通常是 BLEU-1 到 BLEU-4 的加权几何平均值越高越好满分100但人类翻译通常只有30~40。优点计算极快与人类对“流畅度和用词”的粗略判断有一定相关性。致命缺陷完全不看召回率Recall。如果生成文本全是“The the the”只要参考里有“The”它的精确率反而可能很高且完全忽略语义换一个同义词如“快”换“迅速”就算错。2. ROUGE面向召回率的摘要评估替补出身专为文本摘要设计。核心逻辑基于n-gram 召回率Recall重点关注“参考答案中的内容被覆盖了多少”。主要变体ROUGE-N如 ROUGE-1, ROUGE-2计算参考摘要和生成摘要共有的 n-gram 数量 / 参考摘要的总 n-gram 数量。ROUGE-L基于最长公共子序列LCS衡量句子级的词序连贯性不要求连续匹配只要求顺序一致因此比 n-gram 更灵活。ROUGE-W加权最长公共子序列给连续匹配更高的权重奖励流畅片段。优点非常适合评估“信息覆盖率”能有效检测模型是否漏掉了原文的关键实体或事件。缺陷过度偏向召回率如果模型生成一段“废话全篇”把所有关键词都塞进去虽然不通顺ROUGE 得分会虚高同样不识别语义同义词。3. Perplexity困惑度出身信息论是语言模型LM的内部自监督评估指标。核心逻辑衡量模型对测试集未见过的文本的“惊讶程度”。数学上等于交叉熵损失Cross-Entropy Loss的指数exp。通俗理解模型预测下一个词时如果候选词表有 10,000 个词模型预测正确词的概率为 0.0001极度不确定困惑度就是 10,000很高如果概率为 0.5困惑度就是 2很低很有把握。计算公式PPL2−1N∑log2p(wi∣context)PPL2−N1∑log2p(wi∣context)优点不需要参考答案只需原始文本能直接反映模型对语言规则语法、句法、局部语境的拟合能力。训练大模型时Loss 下降直接对应 PPL 下降。致命缺陷与下游任务质量严重脱钩。一个模型 PPL 很低很懂语法但它生成的摘要可能全是废话ROUGE 极低或者它背下了训练集的高频词PPL 漂亮但缺乏创造力。跨模型词表不同比较时完全失效。4. F1 Score精确率与召回率的调和平均出身传统机器学习分类任务判别式模型。核心逻辑在给定的“候选集合”中计算预测正确的比例。Precision精确率模型预测为“正类”的样本中实际正确的比例不误报。Recall召回率实际正类样本中被模型成功找出的比例不漏报。F12×(Precision×Recall)/(PrecisionRecall)2×(Precision×Recall)/(PrecisionRecall)是两者的调和平均数。在 LLM 中的变体常用于命名实体识别NER、问答任务QA的准确匹配EM或者分类任务情感判断。现在也常用于评估大模型在结构化输出如 JSON 格式的正确率。优点兼顾了“误报”和“漏报”对数据不平衡极其鲁棒。缺陷只能用于“离散标签”比对无法评估“开放式文本生成”的多样性。5. 四者硬核对比关键对比维度BLEUROUGEPerplexityF1 Score评估对象机器翻译、代码生成文本摘要、长文本生成预训练模型、语言模型基座分类、NER、QA、结构化输出核心偏好精确率Precision召回率Recall概率置信度不确定性精确率 召回率平衡是否需要参考答案✅ 必须1个或多个✅ 必须通常1个❌ 不需要只需测试语料✅ 必须真实标签是否关注语义❌ 只看字符串重叠❌ 只看字符串/序列重叠❌ 只看概率分布❌ 只看标签是否相等对“长度”的敏感度极敏感有短句惩罚敏感短句覆盖率高对词数平均不敏感与长度无关只看类别可解释性低分数绝对值无物理意义中覆盖率有直观含义高直接对应模型“迷茫度”高直接对应“分对了多少”计算资源消耗极低字符串匹配极低字符串匹配极低只算前向概率极低数学算术6. 实战中的“避坑”总结非常重要这四种指标的应用场景完全不同你在微调垂直领域 LLM如金融问答时千万不要用 PPL 来选拔最终模型因为 PPL 只表明模型记住了词频分布但回答是否“有用”需要看 BLEU/ROUGE如果有标准答案或人工/LLM-as-a-Judge。如果你的任务答案是唯一的如翻译、代码优先看BLEU侧重于译文的“信”和“达”防止胡说八道。如果你的任务是摘要或长文档生成答案不唯一ROUGE 比 BLEU 更受业界认可因为它奖励模型“不漏掉关键事实”。注ROUGE-L 优于 ROUGE-N因为考虑了词序。如果你在评估微调前后的“基座能力退化”可以用PPL快速验证。如果 LoRA 微调后 PPL 骤升说明新知识注入严重破坏了原始语言能力需要减小 rr 或学习率。如果你在评估工具调用Function Calling或选择题F1 Score是金标准因为它是判别指标生成指标BLEU/ROUGE完全不适用。最后给你一个行业共识在当下的 LLM 评估中BLEU 和 ROUGE 正在被逐步抛弃因为 GPT-4 的翻译即使 BLEU 低语义也吊打旧模型它们更适合做“基线门槛”。真正决定模型好坏的是语义相似度如 BERTScore或大模型作为裁判GPT-4 Judge但这又是另一套评估体系了。