第14章：应用日志、标注与效果评估-尧图建网站

1. 项目背景"上线一个月了，AI 客服到底好不好用？有没有帮我们省人力？有没有说错话得罪客户？"这是每个部署了 AI 应用的团队都会问的问题。Dify 的应用日志页提供了基础的数据面板——活跃用户数、消息量、Token 消耗——但这些只是"量"的统计，不是"质"的评估。更棘手的是，LLM 的应用质量是"主观的"——同样一个回答，对 A 用户是"太好了"，对 B 用户可能是"答非所问"。如何量化评估？Dify 提供了**标注（Annotation）**功能：你可以人工标记优质的问答对，构建"黄金数据集"。这些标注数据有两大用途：一是用于 Few-shot Prompt 优化（把标注的优质问答作为示例），二是用于定期评估模型表现。但标注只是"质"评估的起点。真正的效果评估体系需要结合：用户反馈（点赞/点踩）、业务指标（如客服场景的"问题解决率"）、自动评估（用另一个 LLM 给回复打分）。本章将带你建立一套从"看日志"到"做标注"再到"量化评估"的完整流程，帮助你用数据驱动 AI 应用的持续优化。2. 项目设计小胖：（拿着运营给的周报）“大师，你看这个数据：上周 AI 客服处理了 500 次对话，Token 花了 2 万。但这能说明啥？是好还是坏？我完全没概念。”大师：“你说到点子上了。日志页给的是’运营数据’（Operational Metrics），不是’质量数据’（Quality Metrics）。运营数据告诉你’用了多少’——消息量、Token 消耗、活跃用户。质量数据告诉你’用得好不好’——回答准确率、用户满意度

相关新闻

OSC32_IN 和OSC_IN的区别

【小白也能轻松玩转龙虾】虾壳云一键部署全能智能体，多任务自动执行 OpenClaw v2.7.9 办公工具（附最新安装包）

LV30条码扫描器与PIC18微控制器的嵌入式解码系统设计

最新新闻

基于客户端注入技术的Wand增强方案：重新定义游戏修改体验

PulseView实战手册：从信号采集到协议解码的完整工作流

模板驱动的零代码文档自动化：业务人员自助生成合同与报告

【安全】XSS 之攻击与防御

1N4531UR开关二极管参数解析与高速电路应用实战

LENA-R8与STM32L151ZD实现全球定位与低功耗物联网终端设计

日新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！