内容参考于图灵AI大模型全栈我们写的RAG怎么就是一个好RAG可以正常跑的RAG这就要一个手段来检查我们的RAG评估我们的RAGRAG的评估评估就是判断RAG的能力是什么样的比如召回率怎么样RAG有检索和生成能力用来对话系统和问答等任务。评估的目标看的是相关文档的检索和生成的答案的准确性和回答的连贯性。RAG核心两套逻辑一种是通过问题关联文档一种是问题和答案也就是检索和生成检索方面要高效的识别和检索相关的文档生成方面要根据检索到的文档信息生成连贯、准确的答案。要对检索和生成做严格的评估来确保RAG模型的性能和可靠性主要使用的评估指标检索阶段精准度、召回率响应阶段忠诚度、答案相关性精准度前 k 个检索结果中相关文档的占比衡量查准能力。也就是检索到的相关文档数量除以检索到的总数量的结果就是精准度比如检索到10个k的值是10相关的是6个4个不相关准确度就是百分之60或者说是0.6提高精准度的方式比如父子索引、混合索引等索引优化手段还有使用压缩器召回很多个比如召回20ge然后重新对它们打分重新排序也就是RAG融合这个压缩器也可以解决召回率低的问题召回率前 k 个检索结果中包含的相关文档数 除以 全部知识库、向量数据库中相关文档总数的结果就是召回率。核心衡量检索的查全能力是 RAG 检索侧最重要的指标常用 k3、5、10评估精准度和召回率是否可以用有一个F1分数的东西它可以用来评估精准度和召回率它的作用是用来平衡精准度Precision和召回率Recall的为什么用它就可以评估了因为只有准确度和召回率的值都很高F1的值才会高如果有一个分数低F1的值就不会高它的公式是2乘以精准度乘以召回率除以精准度加召回率的结果一个好的RAG系统F1的值应该在0.85到0.93或大于0.93F1 范围性能评价适用阶段典型场景0.5需重大优化模型原型/POC 阶段初步实验、基线测试0.5-0.7基本可用内部测试/非关键场景内部工具、非核心功能0.7-0.85良好性能准生产环境电商推荐、客服问答0.85-0.93优秀性能生产环境关键系统金融风控、医疗辅助诊断0.93接近理论上限高精度要求场景工业质检、法律条款匹配忠诚度生成答案中的所有事实陈述是否都能在检索上下文中找到依据。评估它好不好就看答案是否与检索到的文档有关是否存在乱编幻觉问题。忠诚度的提高要通过提示词来约束或者换模型答案相关性生成答案是否直接回应用户问题是否存在答非所问、偏离主题或引入无关内容。评估方式有人工评估和自动评估人工评估下图红框的点赞和点踩就是典型的人工评估点赞就是给大模型奖励点踩就是惩罚现在用的不是很多了反正我没点过自动评估利用大型语言模型和相关算法对RAG生成的内容进行评分从而评估我们RAG系统的性能这样可以减少人力成本还能提高效率自动评估工具Ragas、Trulens主要写Ragas