RAG中的检索与量化决策-尧图建网站

以前上学时数学老师为了激发我们学习数学的兴趣给我们讲过一个数学故事。尽管我这个数学老师讲故事的能力一般奈何故事本身非常有趣让我一直记到现在。故事的大致内容是在英国维多利亚时代有一个统计学家弗朗西斯·高尔顿他为了收集数据把一头牛牵到了普利茅斯集市上举办了一个猜牛体重的比赛。规则很简单谁猜的体重最接近就能带走奖品。当时有787个人参加了这个比赛其中有屠夫、农夫、家庭主妇等等各类人。在所有人猜完体重后高尔顿把787张票收走算了中位数1207磅。而牛的真实体重是1198磅误差0.8%。由此我的数学老师给了我们一个结论把足够多独立判断融合起来结果比任何单一“专家都好。这个故事的后续部分更有趣。后来有人复现这个实验加了一个变量让参与者在写答案之前互相商量。结果中位数偏离真实值越来越远集体智慧就此崩塌。究其原因得到的结论很简单一旦每个个体的判断不再独立融合就不是在综合不同信息而是在放大同一个信息。现在想起这个故事是因为我发现这个故事与 RAG 系统中存在一些逻辑同构的地方独立性和多样性在 RAG 系统中也非常重要。混合搜索有效的前提混合搜索的逻辑和高尔顿集市有部分是同构的。BM25关键词匹配是一个“判断者”Dense Retrieval语义向量是另一个“判断者”把它们的结果用 Reciprocal Rank Fusion 融合起来就像取787个人的中位数。这种方式得到的数据也更加准确。Elastic 在 BEIR 基准上做过实验结果是RRF 融合比单独 BM25 的 NDCG 10 提升了 18%。Weaviate 在 BRIGHT Biology 上更是得到 24%的结果。18%24%这些数字都证明了混合搜索的优秀之处。但回到高尔顿的条件融合有效当且仅当每个判断者都具有独立性并且他们之间要存在失败案例不重叠。换句话说融合的底层逻辑是互补。A 漏掉的结果B 能捞回来。融合的收益约等于两个检索器失败案例的不重叠程度。重叠越高收益越趋近于零。BM25 在哪类查询上失败语义匹配。用户搜“退货政策”相关文档写的是“如何退款”字面零重叠BM25 不会把它当做合法结果。Dense Retrieval 在哪类查询上失败精确匹配。用户搜“SKU-38291”Dense 把“SKU-38292”也排在前面因为二者语义几乎相同Dense 无法分清。在你的查询集里既有语义匹配需求又有精确匹配需求时比如学术论文检索术语多义、同义词丰富同时有精确引用编号BM25 遗漏的结果Dense 能查询到Dense 无法分清的结果BM25 可以分辨出来。融合后两者的正确结果取并集错误结果被对方覆盖。BEIR 上那些 18% 到 24% 的提升全部来自这种失败模式不重叠的领域。但如果两个检索器在同一批查询上都成功、也在同一批查询上都失败呢Elasticsearch 在 WANDS 电商数据集上做了实验。电商场景的特点是用户搜“蓝色连衣裙”商品标题就叫“蓝色连衣裙”。关键词和语义高度重叠BM25 和 Dense 检索到的结果几乎一样。这时候融合它们就像让787个互相抄答案的人投票。结果RRF 仅比纯密集检索提升 1.7% NDCG。1.7%。为了这1.7%需要维护两套索引、两套检索管道、一个融合层。所以不要因为“混合搜索更好”就上混合搜索。要先搞清楚在数据上BM25 和 Dense 的 top-10 结果重叠率是多少如果超过70%融合几乎没有意义。不要纠结余弦相似度在计算向量语义是否相近时余弦相似度是最被推崇的。理由看起来很有道理它只看向量方向语义不看向量大小文本长度所以对不同长度的文本块更稳定。这个说法在数学上是对的。也有论文证明了高维空间中欧氏距离的区分度随维度增加而退化所有点对的距离趋向同一个常数而余弦相似度通过只关注角度保持了相对区分的意义。但同时也有一个不能忽略的事实**现代主流 embedding 模型在训练时已经对输出做了 L2 归一化**所有向量的长度已经被强制设为1。当所有向量长度都是1时我们能直接得到数学推论对 L2 归一化后的向量余弦相似度、点积、欧氏距离三者产生完全相同的排序。选哪个都一样。所以不要再纠结“用余弦还是用点积”用什么都无所谓因为模型已经归一化了。唯一的区别是计算速度点积最快因为少了一步除法。余弦相似度的“优势”只在一个条件下真实存在就是模型输出未归一化。而这个条件在2024年之后的主流模型中几乎不存在了。多样性制造更多噪声Maximal Marginal RelevanceMMR是1998年 Carbonell Goldstein 在 SIGIR 上提出的算法。这个算法就是为了给检索结果增加“多样性”。想象这样一个场景你检索 top-5 文档块给 LLM 当上下文。正常做法是按相关性从高到低排第1相关、第2相关、第3相关。但如果前3个块是同一段话的不同表述就浪费了3个位置来传递同一条信息。MMR 改了选择规则选完第1个块之后选第2个时不只看“跟问题有多相关”还看“跟已选的块有多不同”。如果第2相关的块跟第1个内容高度重复MMR 会跳过它选一个相关性稍低但内容不同的块。参数 λ 控制偏好λ1 表示只看相关性等于没用 MMRλ0.5 表示相关性和多样性各占一半。直觉上这种方式非常合理。当我们问“比较 React 和 Vue 的优缺点”肯定不希望检索回来的5个块全在说 React 的虚拟 DOM我们需要不同维度的信息。在 Transformer QA 评估中用了 MMR 之后模型完全答对的比例提高了13个百分点部分答对的程度提高了17个百分点。但这里依然有一个隐藏问题。2026年的一项生物医学 RAG 基准测试比较了多种检索策略MMR、不同的 reranking、不同的 chunk 方式等看哪种策略喂给 LLM 的上下文能让最终答案最好。最后费尽心思调试得到的结果比“啥都不做直接用”只好了 0.005 分。换句话说对于事实性单答案问题简单粗暴的 top-k 已经接近天花板了MMR 之类的多样性策略没带来实质收益。为什么会出现这种结果回看测试集会发现基准测试的问题大多是事实性单答案问题比如“这个药物的剂量是多少”“这个基因的功能是什么”对这类问题正确答案只有一个它可能出现在排名第1的块里也可能出现在排名第3的块里。MMR 为了“多样性”把排名第2的高相关块换成了一个“不同但不太相关”的块结果正确答案被挤出了上下文窗口。回到高尔顿的类比多样性有价值前提是对正确答案的不同方面做多样性采样。如果是在对错误答案做多样性采样只会用更多种方式犯错。多思考用户提的是多角度问题还是精确事实问题如果是后者占大多数业务场景关掉 MMR直接用 top-k 相关性排序。λ1.0不加多样性。回到787个人到这里我们要想一个更基础的问题高尔顿集市上那787个人他们到底是谁他们之中有屠夫有农夫有家庭主妇最重要的一点是他们不是同一种人。屠夫靠经验判断肌肉量农夫靠喂养周期估算家庭主妇靠买肉时的手感。正是因为他们用不同的方式“看”同一头牛融合结果才有效。如果787个人全是屠夫他们会用同一套方法判断“牛的体重”融合效果会大打折扣。这个道理直接映射到 RAG 检索中的另一个问题检索器到底在用什么方式“看”文本两种“看”文本的方式稀疏与密集BM25 和 Dense Retrieval 不只是“两个检索器”它们代表了两种根本不同的文本表示方式。稀疏 embeddingBM25、SPLADE把一段文本变成一个巨大的向量维度等于词表大小3万到10万维绝大多数位置是零只有出现过的词对应的位置有值。每个维度的含义是明确的第38291维就是表示“退款”这个词。密集 embeddingE5、BGE、OpenAI text-embedding-3把同一段文本压缩成一个短向量384到3072维几乎没有零值。每个维度没有明确的语义对应看不出任何一个位置“代表什么”。但它把语义关系编码进了向量的几何结构里比如“退货政策”和“如何退款”在向量空间中距离很近尽管它们没有共同的词。在 BEIR 基准上BM25 的平均 NDCG 10 是 43.4混合模型hybrid可达约 52.6。差距约 9 分顶级密集模型可能更高。看起来密集完胜。但是BM25 在精确标识符产品编号、法条编号、代码函数名上的表现远好于密集模型。密集模型把“SKU-38291”和“SKU-38292”编码成几乎相同的向量它“理解”了这是同类东西但分不清具体是哪个。BM25 不理解任何东西但它能精确区分每一个字符。这就是为什么混合搜索有效稀疏和密集是两种根本不同的“看”法它们的盲区不重叠。就像屠夫和农夫用不同方式估牛的体重。微调回到高尔顿集市。假设那头牛不是普通的肉牛而是一头罕见的高地牛毛长、骨架特殊、肌肉分布异常。这时候普通屠夫的经验就不够用了。你需要一个专门养过高地牛的人。通用 embedding 模型面对领域专业术语时就像普通屠夫面对高地牛它见过“牛”但没见过“这种牛”。“心肌梗死”和“MI”在通用模型里可能距离很远但对心内科医生来说它们是同一个东西。下面的数据证明了微调对于特定领域的检索结果十分有效金融 embedding 适配LLM 蒸馏方法MRR 5 平均提升 27.7%DCG 5 提升 44.6%。金融领域FinQAPT微调模型 R 3 和 R 5 提升超过 20%。专利检索仅用 5 个训练对做少样本微调MAP 100 即可提升 6-14%。但微调也有代价过度微调让模型在专业领域变好了在其他所有领域都退化了。如果你的系统需要处理多领域查询微调可能是负收益。少样本微调5对有效但提升有限6-14%大幅提升20%需要大量标注数据标注本身就是成本。压缩与量化大规模 RAG 检索都需要面对文档过多的问题。当知识库有100万个文档块每个块是一个1024维的 float32 向量时光存储就要 4GB。每次查询要跟100万个向量算相似度。所以需要某种方式可以快速筛选先粗略过一遍淘汰明显离谱的再仔细对比剩下的。目前主要有两种压缩策略对应两种不同的“快速筛选”思路MRLMatryoshka Representation Learning缩短向量。Kusupati et al. (NeurIPS 2022) 提出的方法训练时让模型同时优化多个维度的表示使得你可以只取前 N 维来做检索不需要用全部1024维。就像一个俄罗斯套娃外面的大娃娃包含完整信息里面的小娃娃包含核心信息。文本检索的一般规律是维度越低损失越大但具体数字取决于模型和数据集。所以需要在自己的数据上实测不同维度的 NDCG 损失。量化降低每个数字的精度。不缩短向量而是把每个维度的数值从 float3232位压缩到更低精度。Springer 2025 的实验给出了精确数据float8 量化4× 存储压缩NDCG 10 损失 0.3%。int8 量化同样 4× 压缩但损失约 1.5%——float8 明显优于 int8。float8 50% PCA 降维组合8× 总压缩损失仅 0.62%。更激进的方案是二值量化把每个维度压缩到1位0或1。HuggingFace 用 mxbai-embed-large-v1 做了实验二值量化 rescore先用二值快速筛出候选再用全精度重排保留约 96% 以上的原始性能。二值量化实现 32× 内存缩减和约 25-40× 检索加速。规模决定策略。知识库 10万块全精度 float32不用折腾。10万-100万块float8 量化4× 压缩损失 0.3%几乎免费的午餐。100万块二值量化快速初筛 top-400再用全精度重排 top-100。知识图谱融合高尔顿集市只有一头牛。但如果要面对的是一整个牧场呢而且牛和牛之间有关系这头是那头的母亲那头和另一头是同一批次打的疫苗。有些用户问的问题不是“这头牛多重”而是“哪些牛跟这头牛打过同一批疫苗”。向量检索擅长找“跟这段文本语义相似的文本块”但不擅长回答需要跨多个实体跳转的问题。知识图谱用节点实体和边关系显式存储这些连接支持多跳推理。GraphRAG 把两者融合向量检索提供上下文丰富度图谱提供精确的实体关系和推理路径。在多跳推理问题上优势明显但在简单事实问答上与普通 RAG 差异不大。而且知识图谱有三个被低估的成本构建成本实体抽取、关系标注、持续维护。LLM 辅助构建降低了门槛但引入了抽取错误。适用条件窄如果你的场景80%是单跳查询“X 是什么”“Y 的值是多少”图谱的投入产出比极低。融合冲突当图谱数据和文本数据给出矛盾信息时如何决策只有当你的领域同时满足三个条件时才考虑 KG-RAG有明确的实体关系结构查询经常涉及多跳推理“哪些药物与 X 有相互作用且被 Y 疾病的患者使用过”有资源持续维护图谱。否则纯向量检索混合搜索已经足够。一个决策框架RAG 检索永远需要首先搞清楚的问题是“在我的场景下哪个条件被满足了”。在真正决策前先看看下面这些问题。查询包含必须精确匹配的实体/编号吗 → 是上混合搜索让 BM25 兜底精确匹配 → 否先测纯密集检索的 NDCG10可能就够了两个检索器的失败案例重叠吗 → 测 top-10 重叠率。70% 别融合了浪费资源 → 50% 融合收益大上混合搜索 embedding 模型输出归一化了吗 → 是大概率用点积最快排序跟余弦完全一样 → 否用余弦相似度问题需要多角度信息吗 → 是比较类、综述类MMRλ0.5-0.7 → 否事实类、数值类top-k不加多样性知识库有多大 → 10万块全精度 float32不压缩 → 10万-100万float8 量化4× 压缩损失 0.3% → 100万二值初筛 top-400 → 全精度重排 top-100 领域术语有多专业 → 先跑通用顶级模型基线 NDCG10 → 够用就别动 → 不够用领域术语专业度高 → 微调混入通用数据防遗忘查询是否经常涉及多跳推理 → 是有明确实体关系有维护资源 → KG-RAG → 否80%以上是单跳查询→ 纯向量混合搜索传统产品经理正在成为下个被淘汰的“传统岗位”。过去画原型、写 PRD、跟进度的“传统技能包”在AI时代正迅速贬值。63% 的企业转型做 AI 产品当下的问题不再是“要不要学 AI ”而是“如何构建 AI 产品”。前段时间还跟字节、腾讯的资深 AI 产品经理沟通他们反馈在大量招人只要有 AI 相关的项目经验基本都能拿到面试机会而且领导很舍得给钱涨薪 40-60% 很正常01接下来的产品人得卷AI能力了如今AI大火行业极速发展的背后懂AI 产品人才却严重稀缺。这不是要你转技术岗而是要掌握构建 AI 产品的核心方法如何将你的领域知识转化为 AI 产品的核心竞争力如何用 AI 技术实现你的产品需求如何设计真正懂用户的 AI 交互体验……懂AI就是产品经理的“救命稻草”风口之下与其焦虑被行业淘汰不如先人一步享受AI技术带来的红利我把AI产品经理的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】不限年龄不限岗位没有代码基础也能学现在扫码完课还送《AI产品面试题库》《AI大模型应用案例集》02掌握技术实战快速转型想成为一名卓越的AI大模型产品经理需要从技术、到项目实战的全方位转型指南**1**AI产品应用原理解析产品经理也能听懂对于产品经理来说如果你不懂技术做不了业务和AI大模型技术衔接、定义不了数据需求是没法完整的落地一个产品的本次课程专门面向产品经理人群解析当下最热门的AI产品应用的必备的「大模型」、「多模态」的实际应用和算法原理解析AI产品应用技术积累大模型能力简单易懂不需要会代码小白也能掌握大模型微调掌握主流大模型如DeepSeek、Qwen等的微调技术针对特定场景优化模型性能。学习如何利用领域数据如制造、医药、金融等进行模型定制AI Agent智能体搭建学习如何设计和开发AI Agent实现多任务协同、自主决策和复杂问题解决。构建垂类场景下的智能助手产品如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等2超全行业案例解析课程详细讲解现阶段大模型在各个行业和领域的应用现状包括零售与电商、教育、医疗、泛娱乐、法律等等10大行业详细讲解案例的思路、应用场景以及背后的技术原理、核心技术揭秘各个行业、场景的真实现状和未来产品的发展与机遇可以说讲解完一个案例就能积累一个AI产品实践的经验课程中所涉及到的实战项目都可以直接在自己的工作中使用让自己的产品/项目有可借鉴的成功案例3AI产品经理求职专项辅导课程中会系统的帮助大家拆解字节、腾讯、百度等大厂AI PM岗位JD关键词掌握AI PM高频面试题型与回答框架展示 AI 相关能力的关键技巧Prompt设计、模型评估、A/B测试、成本意识、与算法/工程协作经验To B类AI产品经理突出“行业理解技术落地商业闭环”能力的简历结构设计展示项目成果从客户需求洞察到技术方案设计展现端到产品思维如何评估To B AI产品的可行性、客户付费意愿与实施成本To C类AI产品经理拆解头部公司岗位JD将过往尽力转化为AI产品叙事逻辑从行业趋势、产品设计题、案例分析数据分析题、技术理解边界等全流程辅导面试避免无效海投、锁定最适合的AI产品岗位03本次课程全程直播讲解能直接对话大佬和专业助教不懂就问超详细的案例小白也能轻松get完课后还赠送《AI产品经理面试题库》、《AI大模型应用案例集》不断更新中……适合人群想转型AI产品经理、AI项目管理专家、AI产品解决方案等岗位想进行AI产品创业的创业者想成为制作AI产品的程序员想利用AI解决企业问题的管理岗想在AI方向寻找就业方向的毕业生AI方向前景广阔、待遇好目前很多产品人已经通过完整学习拿到大厂高薪offer收入嗷嗷涨我把AI产品经理的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻

NavSim自动驾驶仿真平台：从数据生成到闭环评估的工程实践

deepseekgui安装包

新手学网安无从下手？这份 2026 完整指南，基础防护 + 实战进阶全覆盖，轻松上手

最新新闻

CodeWarrior IDE 5.7菜单系统全解析：从项目构建到嵌入式调试

Reddit视频自动生成器终极指南：一条命令创造百万播放视频

自动驾驶调研-Day3

百度网盘高速下载终极指南：告别限速的Python解析工具

RDP Wrapper终极指南：免费解锁Windows家庭版远程桌面多用户并发连接

Ubuntu终端效率革命：从Terminator到ZSH的完整配置指南

日新闻

Java毕设选题推荐：基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现 基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】

ZigBee HA智能家居开发实战：从集群模型到NXP JN516x代码实现

如何快速掌握Grasscutter命令生成器：原神私服管理的终极指南

周新闻

月新闻

Java毕设选题推荐：基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】