适用场景Agent 系统输出的内容质量评测意图识别、计划生成等核心原则能代码断的不上裁判裁判只做 Binary不校准不上线核心原则能代码断言的不上裁判。代码快、准、零成本重复。裁判是兜底不是默认选项。裁判只做 BinaryYES/NO不打分。1-5 分两个人判都不一致假精度没有意义。裁判不校准不上线。TPR 和 TNR 不到 80%不直接用。一、断言作用点1.1 链路断言点断言不只打在最终输出上链路每个跳转节点都是断言点。只断最终输出会漏掉中间节点的错误。断言点断什么断言类型意图识别是否命中正确意图代码断言路由分发是否路由到正确 Agent代码断言工具调用是否调用了正确的工具/能力代码 or LLM 裁判最终输出内容是否正确、完整、安全代码 LLM 裁判 人工1.2 错误检测 vs 遗漏检测类型定义断言方式错误检测输出里有矛盾/错误如休息训练LLM 裁判可主动发现遗漏检测输出里缺了该有的内容如膝盖不好没给风险提示需要must-have checklist作为裁判锚点must-have checklist 按场景类型维护触发条件从用户输入提取must-have 项用户提到伤病/身体限制必须包含风险提示 动作替代用户指定了特定器械不能出现该器械以外的替代用户有明确目标减脂/增肌训练配比必须与目标一致触发条件用代码匹配内容是否覆盖由 LLM 裁判判断。二、落地流程阶段 1从真实 trace 反推断言维度输入20-30 条 Agent 真实输出覆盖正常 异常操作人工逐条看记录问题按类型分类输出问题分类表每类问题 频次 具体 case完成标准连续 5 条没有新类型出现不要从通用指标开始“测一下 helpfulness”。从真实 bad case 反推。阶段 2设计 Binary 断言 must-have checklist输入阶段 1 的问题分类表操作每类问题转化为一条 Binary 断言YES/NO梳理场景级 must-have checklist输出断言维度表 checklist完成标准每条断言有明确判断标准无合不合理式模糊表述断言维度表模板维度ID维度名称Binary 断言断言类型触发条件J-01内容无矛盾是否存在语义矛盾描述LLM 裁判所有输出J-02目标一致性训练配比是否与用户目标一致LLM 裁判用户有明确目标时J-03安全约束是否规避风险动作并给出替代LLM 裁判用户有伤病/限制时阶段 3标注金标准输入10-20 条已知质量的输出坏 case 占比 ≥ 20%操作人工对每条每个维度标注 PASS/FAIL输出金标准数据集JSONL完成标准最好两人独立标不一致的讨论对齐{case_id: G-001, input: 用户输入, output: Agent输出, labels: {J-01: PASS, J-02: FAIL}, notes: 目标减脂但配比偏增肌}阶段 4调试裁判 prompt 校准输入金标准数据集 裁判 prompt 初稿操作裁判跑金标准逐维度算 TPR / TNR输出校准报告每维度 TPR/TNR 误判分析完成标准每维度 TPR ≥ 80% 且 TNR ≥ 80%TPR 裁判正确判 FAIL 的坏 case 数 / 人标的全部坏 case 数 TNR 裁判正确判 PASS 的好 case 数 / 人标的全部好 case 数未达标调整TPR 低 → prompt 加漏判的坏 case 示例TNR 低 → 检查 rubric 是否过严加误判的好 case 反例。阶段 5部署 日常运行输入校准通过的裁判 prompt 代码断言集操作代码过滤 → 裁判判剩余 → 人工看 flag 项输出评测报告通过率 flag 列表 人工复核结果节奏每轮迭代跑一次每 20-30 条随机抽检不只看 flag也抽 PASS新发现的 bad case能代码化 → 加代码断言不能 → 加裁判维度。三、裁判 prompt 模板你是一个 AI 输出质量裁判。判断以下 Agent 输出是否满足指定维度。 ## 待评测内容 - 用户输入{user_input} - Agent 输出{agent_output} ## 评测维度 {dimension_name}{binary_assertion} ## 判断规则 - 只回答 YES 或 NO - YES 满足NO 不满足 - 先给判断结果再给一句话理由 ## 示例 [从金标准提取 2-3 个YES/NO 各至少一个] ## 输出格式 判断YES/NO 理由[一句话]每个维度单独调用一次不要多维度塞一个 prompt。四、常见坑速查坑规避从通用指标开始从真实 bad case 反推维度打分制1-5 分BinaryYES/NO只看 agreement 率拆开看 TPR 和 TNR裁判和被测同模型必须用不同模型不校准就上线先过金标准TPR/TNR ≥ 80%只断最终输出链路每个节点都断只断错误不断遗漏must-have checklist 作为锚点Rubric 模糊可操作化“有没有 X”五、重新校准触发条件触发条件原因Agent prompt / 模型版本更新输出分布变化校准基线失效新增场景类型原有维度可能不覆盖裁判连续 3 条与人工不一致裁判已偏移金标准新增 ≥ 5 条TPR/TNR 需重算附录参考来源来源关键观点Anthropic三种打分器递进代码 → 模型 → 人类Hamel HusainBinary 优于打分LLM 不能做初始错误分析OpenAIBinary labels TPR/TNR 校验