第14章:应用日志、标注与效果评估
1. 项目背景"上线一个月了,AI 客服到底好不好用?有没有帮我们省人力?有没有说错话得罪客户?"这是每个部署了 AI 应用的团队都会问的问题。Dify 的应用日志页提供了基础的数据面板——活跃用户数、消息量、Token 消耗——但这些只是"量"的统计,不是"质"的评估。更棘手的是,LLM 的应用质量是"主观的"——同样一个回答,对 A 用户是"太好了",对 B 用户可能是"答非所问"。如何量化评估?Dify 提供了**标注(Annotation)**功能:你可以人工标记优质的问答对,构建"黄金数据集"。这些标注数据有两大用途:一是用于 Few-shot Prompt 优化(把标注的优质问答作为示例),二是用于定期评估模型表现。但标注只是"质"评估的起点。真正的效果评估体系需要结合:用户反馈(点赞/点踩)、业务指标(如客服场景的"问题解决率")、自动评估(用另一个 LLM 给回复打分)。本章将带你建立一套从"看日志"到"做标注"再到"量化评估"的完整流程,帮助你用数据驱动 AI 应用的持续优化。2. 项目设计小胖:(拿着运营给的周报)“大师,你看这个数据:上周 AI 客服处理了 500 次对话,Token 花了 2 万。但这能说明啥?是好还是坏?我完全没概念。”大师:“你说到点子上了。日志页给的是’运营数据’(Operational Metrics),不是’质量数据’(Quality Metrics)。运营数据告诉你’用了多少’——消息量、Token 消耗、活跃用户。质量数据告诉你’用得好不好’——回答准确率、用户满意度