第11章:Embedding入门——把文档变成可检索知识
1. 项目背景业务场景某中型制造企业的技术知识库经过10年积累,沉淀了大约5000份Markdown格式的技术文档,涵盖设备手册、维修指南、故障代码库和SOP标准作业流程。这些文档平铺在文件服务器上,查找全靠Windows搜索——搜文件名还好,但搜内容就抓瞎了。维修工程师老张在一次抢修中的典型经历:某台数控机床报了故障代码E2027,他在文件夹里搜索"E2027",没结果。又问同事,没人记得在哪份文档里。最后翻纸质手册花了45分钟才找到对应的维修步骤。IT部门决定用大模型做智能问答,但很快发现模型无法"知道"公司内部文档的内容。技术经理提出做RAG(检索增强生成),但第一步是要把文档变成机器可检索的形式——这就是Embedding。痛点关键词检索的局限:搜索"温度过高"找不到内容为"设备过热"的文档——传统搜索引擎不理解同义词和语义。非结构化知识难利用:文档是自然语言,机器不能直接处理,需要转换成数字。Embedding概念抽象:对非ML背景的开发者来说,"把文本变成一个512维的浮点数数组"这句话本身就是天书。缺乏本地化Embedding方案:调用OpenAI的Embedding API同样存在数据离开企业内网的问题。一句话总结:Embedding就是把"语义"翻译成"数学",让计算机能用向量距离