分享一些在 AI 解析中常见的问题,以及工具区别
上周我分享了一个自己做的小项目已经在 Github 上拿下 1000star 了到这周是 1500了后面有人问我觉得我做的东西跟 MinerU 好像啊是不是在重复造轮子所以今天分享一下在 AI 时代做解析可能会遇到的一些问题以及工具之间的区别。首先叠个甲啊MinerU 确实是一个很优秀的文档解析工具它能把 PDF 里的文字、标题、表格、图片等内容提取出来并转换成 Markdown 。但问题在于解析成 Markdown 并不等于文档已经能被 Agent 理解。你拿到一份 Markdown 后通常还要把它切成 Chunk 扔进向量库然后让 Agent 或 RAG 系统去检索。听起来很顺但真正做过的人都知道坑就在这里。一份复杂 PDF 原本有章节、有层级、有表格、有图片、有跨页引用。解析成 Markdown 之后这些结构信息会变弱再经过切片每个 Chunk 更像是被切下来的孤立文本片段。它可能不知道自己属于哪一章前后文是什么旁边那张表格在说明什么相关图片和正文是什么关系。于是 Agent 检索时拿到的只是几个“看起来相似”的片段。它不知道第 3 章第 2 节有一张对比表格刚才检索到的那段文字其实是对这张表格的说明。它只能把几个相似度最高的碎片拼在一起交给 LLM 凑答案。这就是为什么很多团队用 MinerU 搭 RAG 之后效果并不是很满意。不是 MinerU 的问题是文档被打平之后丢失的结构信息没人帮它找回来。所以我就在想能不能做一个更适配 AI Agent 使用的、一步到位的工具来节省我们的时间呢这就是 Knowhere 的由来它会帮你把解析出来的文本继续变成 Agent 可以导航、可以引用、可以推理的长期记忆。具体方式是这样的在解析和向量化之间Knowhere 插入了一个结构重建的流水线第一重建文档层级。Knowhere 会用树形结构算法恢复文档里的章节关系。每个 Chunk 不再只是一个孤立文本块而是知道自己在哪个标题下、处于哪一层级、上下文路径是什么。第二处理多模态内容。图片、表格不再只是“附件”或者“丢失的信息”。Knowhere 会对图片做 OCR 和描述对表格做摘要和结构化处理并把它们和来源 Chunk 关联起来。这样 Agent 检索时不只是检索文字也能拿到相关图表证据。第三构建轻量记忆图谱。当文档被拆成 Chunk 后Knowhere 会保存导航树、摘要、图谱链接等信息让文档不再是平铺文本而是一张可以被 Agent 走动和追踪的知识结构。当你上传多份文档Knowhere 会在文档之间建立关联形成一张可导航的跨文档知识图谱。第四提供 Agentic Retrieval 。传统 RAG 更多是向量相似度检索www.ycsjb.com拿几个片段就交给 LLM 。Knowhere 的检索会融合关键词、路径、内容和语义信号让 Agent 先发现相关区域再沿着章节树和图谱链接继续深入最后返回可溯源的结果。MinerU 只把 PDF 变成 Markdown 。但 Knowhere 则会把 Markdown 进一步变成 Agent 能用的记忆。Knowhere 比 MinerU 多做的不是一个小功能而是把“解析后的文档如何进入 RAG/Agent 系统”这整条链路补齐了。我们做过内部评测在相同的 Agentic RAG 任务里让 Agent 分别基于原始文档、普通 parser 输出以及 Knowhere 处理后的结构化记忆来完成搜索、修改、问答等任务。使用了 Knowhere 之后首次准确率提升 36%召回率提升 11%有反馈时准确率达到 79%而直接使用原始文档大约会卡在 53% 左右。以此同时Agent 循环次数更少Token 消耗更低完成任务更快。算是又省钱又高效了。原因也不复杂。如果 Agent 面对的是一整坨文本那它只能盲找。但如果 Agent 面对的是一棵树、一张图、一组带来源路径的 Chunk 它就可以像人读文档一样先看目录再定位章节再进入细节。这就是结构带来的差异。至于 Knowhere 能用来做什么呢我觉得如果你的 AI 应用需要从文档里拿信息Knowhere 就有用。比如企业内部知识库——产品手册、操作规程、FAQ 、培训资料很多都不是简单文本而是 PDF 、Word 、PPT 、Excel 混在一起。Knowhere 可以把这些文档处理成 Agent 可检索的结构化记忆。比如技术文档助手——设备说明书、API 文档、工程图纸、维护手册经常又长又复杂。Knowhere 已经支持超长 PDF 和 atlas-style documents 几百页的技术手册、图纸集合也能走专门的布局感知 parser 。比如合同和报告分析——法律文件、财报、招投标文件、研究报告都非常依赖上下文如果只靠平铺切片很多引用关系和章节逻辑会丢。Knowhere 的章节路径和证据引用能让结果更稳。比如 Agentic RAG ——很多团队现在不是只做“问答”而是希望 Agent 能基于文档完成多步任务那就更需要文档本身是可导航的而不是一堆碎片。所以说MinerU 擅长文档解析它能把 PDF 里的文字、标题、表格、图片等内容提取出来生成 Markdown 或结构化结果到这一步对很多开发者来说就足够了。但如果你的目标是搭 RAG 或 Agent 知识库解析只是第一步。后面还要做 Chunk 组织、Embedding 、索引入库、检索逻辑、证据引用、文档更新等一整套工作那么用 Knowhere 就更实在。它不只给你一份解析结果而是把文档继续处理成可以直接被 Agent 检索和使用的记忆。你不需要再自己额外拼 chunking 、embedding 、向量库、检索 API 这些链路Knowhere 已经把它们放进同一套流程里。你只需要装它一个就能解决从文档读取到接进 AI 应用的全部工作。