评估与监控——基准测试与链路追踪,没有评估就没有改进
前置知识:第26篇(RAG)/ 第19篇(vLLM 推理)引言:怎么知道模型"好不好"?前三篇我们构建了 RAG 系统和 Agent。但一个关键问题:怎么知道它做得好不好?**评估(Evaluation)**回答"模型好不好",**监控(Monitoring)**回答"服务稳不稳"。两者缺一不可。更关键的是:没有评估就没有改进。如果你不知道模型在哪个环节表现差,你就不知道该优化哪里。一、基准测试1.1 主流基准数据集测试能力题量当前 SOTA说明MMLU通用知识(57 学科)14K 题GPT-4: 86.4%所有模型必测GSM8K数学推理8.5K 题GPT-4: 92%数学能力