38.图RAG-Light RAG说明(2)
内容参考于图灵AI大模型全栈上一个内容中写了索引部分这次来写检索首先通过下图红框输入文档然后通过下图红框对文档进行切分然后进行向量和json存储向量里存放一个id通过这个id去json中找数据在做增量更新的时候先从json中查找如果存在了就拿来用不去创建新的然后把切分后的数据给大模型准备生成知识图谱数据下方是LightRAG给大模型时的提示词提示词在下图红框的文件里如下图红框它的提示词中文翻译它也就是做的生成图数据它还有好多提示词然后就到了下图红框的步骤经过下图红框的步骤后会得到节点Entites data和边的数据Relations data得到节点和边的数据这些数据中有元数据如文档切分后的idchunk_id处理数据去重然后保存到向量数据库去重之后有一个问题文本信息是来自于不同的地方比如苹果它会来自于不同的文档苹果在不同的文档中含义可能不一样所以在下图红框位置它又使用了大模型如下图是它的提示词中文翻译去重前a和b两个位置出现了飞机也就是有两个飞机去重之后就剩下一个了这时要让大模型总结飞机在a中的意思和在b中的意思然后进行总结让对飞机的描述更加精准利用大模型总结完后把内容放到图数据库中接下来是提问的逻辑首先在下图红框输入问题然后给到系统提示词然后生成双层检索的高层和底层检索生成双层检索的提示词中文翻译它让大模型返回的数据格式高层和低层或者说高级high和低级low首先是低级它会把文档转成向量然后它在实体节点的向量数据查询得到查询到的数据然后去知识图谱中拿具体的内容然后获取直接相关的关系节点数据然后根据之前存储的chunk_id去拿源文档数据然后在这里得到实体的信息、知识图谱数据、源文档然后进行合并提示词中文翻译然后就会把整合好的提示词给大模型进行提问回答问题了到这是低级查询的逻辑高级检索也差不多的逻辑它也是先去查询关系的向量然后得到Topk个然后去查询图数据这里除了直接关系还有其它关系看下方的图2然后根据id得到源文档数据然后整合数据图2可以通过孙悟空得到敖广然后通过敖广得到龙婆这样的数据低级的只能通过孙悟空得到敖广得不到龙婆然后就可以得到很多信息低级的数据和高级的数据还有我们的问题一起拼接给大模型去提问