你好如果你正在学习怎么让大模型比如 ChatGPT、通义千问真正为你所用——不仅能回答公开知识还能读懂你公司的内部文档、记住你的业务数据、甚至处理录音和图片——那么这篇文章就是为你准备的。我会带你从零开始理解大模型应用开发中最核心的几个概念RAG检索增强生成、知识库、数据库、多模态处理然后手把手教你用Dify这个开源平台把理论变成能跑的应用。全程不贴复杂源码只用大白话和实际操作为你拆解每一步。一、先搞懂三个核心概念知识库、数据库、RAG很多新手分不清“知识库”和“数据库”觉得都是存东西的。实际上它们解决的问题完全不同。1.1 知识库 vs 数据库记住这张表就够了对比点知识库数据库存什么文档、段落、文本片段PDF、Word、网页表格、字段、记录Excel、CSV用来干嘛检索和召回相关内容“从资料里找答案”增删改查结构化数据“对表格做操作”是否常改通常不频繁修改比如公司制度一年一改经常新增、修改、删除每天签到、订单工作流节点知识库检索节点数据库节点查询、新增、更新、删除典型场景课程问答、产品说明书问答、制度问答签到记录、绩效管理、订单查询、用户信息错误理解只要是自己的数据都放知识库 → 错。表格数据放知识库没法做“把张三的分数加5分”这种操作。反之长篇文档放数据库也不合适因为数据库不擅长检索段落语义。1.2 什么是 RAG检索增强生成为什么需要它大模型本身有几个硬伤知识截止到训练时不知道最新信息。不知道你公司的内部资料。遇到不确定的问题容易瞎编幻觉。每次资料变化都去重新训练模型成本太高。RAG 的思路非常巧妙不把知识硬塞进模型大脑而是让模型在回答问题时先去你的资料库里翻书找到相关内容再结合自己的语言能力来回答。标准流程长这样你的文档 → 解析 → 切分成小段 → 转换成向量语义指纹→ 存入向量库 用户提问 → 把问题也转成向量 → 检索最相似的几个片段 → 把片段问题一起给大模型 → 大模型生成回答这个过程里最关键的一步是分段chunking——把长文档切成一个个小片段。切太大检索不精准切太小上下文不完整。通常还会让相邻片段重叠几句避免知识点被拦腰切断。1.3 三种检索方式全文检索、语义检索、混合检索全文检索关键词匹配就像你在 Word 里按 CtrlF 搜一个词。优点是精确缺点是换成同义词就搜不到。语义检索把文本和问题都转成“向量”一串数字代表语义位置计算向量之间的距离。意思越近向量越接近。优点是灵活换说法也能找到。混合检索把前两者结果合并再排序一次取长补短。这是目前最稳的做法。调参小贴士在实际使用中你主要调三个参数召回数量TopK每次返回几个片段太少漏信息太多模型读太多无关内容。建议 3~5。最小匹配度Score相似度门槛。0.5 宽松0.7 平衡0.85 严格。如果资料质量高可以设高一点。查询改写把用户口语化问题如“那个啥怎么弄”改成规范检索词大幅提升召回率。二、多模态让 AI 能看、能听、能说、能生成除了文字真实世界还有图片、音频、视频。大模型应用也要覆盖这些。2.1 图像能力文生图你写一段描述“一只穿西装的猫坐在办公室”AI 给你画出来。提示词要包含主体、场景、风格、光线、颜色以及你不希望出现什么。图片清晰度提升把模糊的老照片变清晰。注意这不是魔法原图信息严重缺失时效果有限而且通常消耗积分。2.2 音频能力语音转文字ASR把面试录音、会议录音转成文字。转出来的文字通常没有标点需要再让大模型加上标点、整理成通顺段落。文字转语音TTS把一段文字变成语音像 AI 配音。可以选音色、语速、情绪。常见于短视频解说、有声新闻。2.3 视频生成根据文字描述生成几秒钟的视频。目前成本高、效果不稳定人手、物理动作容易出错真实工作中通常需要多次生成再人工剪辑不要对它期望太高。把这些能力放到真实场景里比如 AI 面试助手简历评估知识库存简历模板数据库存违禁词大模型分块评估。面试录音分析ASR 转文字大模型区分角色、提取问答对、评估表现。面试题生成从知识库检索岗位要求从数据库读历史题大模型生成新题。批量处理循环处理多个候选人的数据。三、Dify 是什么为什么选它Dify 是一款开源的大语言模型应用开发平台它把构建 AI 应用所需的技术栈模型接入、Prompt 编排、RAG 引擎、Agent 框架、工作流编排全部打包好让你像搭积木一样快速搭建生产级应用。和 Coze 相比Dify 的核心定位是面向开发者的 LLMOps 与 BaaS 平台强调私有化部署、模型中立支持超 50 个模型、精细控制工作流和 RAG。Coze 更偏向面向消费者的 AI 应用商店零代码快速发布到抖音、飞书。什么时候选 Dify你需要私有化部署数据不出公司金融、医疗行业刚需。你想自由切换模型不被某一家锁定。你的业务逻辑复杂需要多步骤、多分支的工作流。你的文档格式多样扫描件、表格、图文混排需要更强的解析能力。如果你只是个人玩玩想几分钟搭个聊天机器人发到社交平台那 Coze 更合适。四、Dify 安装实战附避坑地图Dify 官方推荐用 Docker 部署。在动手之前你得先理解两个 Docker 概念不然装完也不知道它在干啥镜像Image一个只读的“安装包”里面包含完整操作系统 应用。容器Container镜像运行起来的实例可启动、停止、删除。4.1 安装 WSL 2仅 Windows 用户Docker 依赖 Linux 内核所以 Windows 要先装 WSLWindows Subsystem for Linux。打开 PowerShell管理员敲wsl --install安装完成后必须重启电脑。如果提示“虚拟化未开启”去 BIOS 把 Intel VT-x 或 AMD SVM 打开。4.2 安装 Docker Desktop下载安装包安装时务必勾选“使用 WSL 2 代替 Hyper-V”。装完后进入 Settings → Docker Engine加上国内镜像源如https://docker.m.daocloud.io否则拉取镜像慢到崩溃。4.3 拉取并启动 Dify从 GitHublanggenius/dify下载源码压缩包解压。进入docker文件夹把.env.example重命名为.env。在该目录打开终端执行docker compose up -d。等待镜像拉取首次可能几 GB耐心等断线重试会自动续传。浏览器访问http://127.0.0.1/install注册管理员账号。如果启动失败检查端口是否被占用80、443、6379或者重新执行docker compose down再up。大多数问题重试就能解决。五、第一个工作流让大模型听话5.1 接入模型供应商点击右上角头像 → 设置 → 模型供应商。Dify 把模型分成三类系统推理模型对话用Embedding 模型知识库向量化用语音转文字模型以通义千问为例填入 API Key阿里云百炼申请和模型名称如qwen-turbo保存测试连通性。如果想接本地 Ollama注意 Ollama 默认只监听127.0.0.1需要改成0.0.0.0才能让容器里的 Dify 访问。5.2 创建空白工作流在“工作室”点击“创建空白应用”类型选工作流。5.3 拖拽节点开始节点增加一个输入变量query文本类型代表用户问题。LLM 节点拖到画布连接开始节点。模型选刚接入的系统提示词写“你是一个乐于助人的助手请用中文回答”上下文引用query。结束节点输出 LLM 节点的text。点击“试运行”输入“西安有什么好吃的”你会看到模型返回回答。如果回答是英文就在系统提示词里强调“用中文”。六、重头戏知识库 RAG 完整实战6.1 创建知识库顶部导航栏点击知识库→ 创建知识库。选择数据源支持 PDF、Word、Excel、TXT、HTML 等上传你的文档点击下一步。6.2 配置分段模式核心Dify 提供两种模式通用模式手动设置分段标识符默认\n按段落分、最大长度默认 500 Tokens、重叠长度建议 10-25%。父子模式推荐新手自动生成大块父块和小块子块。检索时用子块精确定位然后把整个父块给大模型补充上下文兼顾准确性和完整性。在 AI 客服场景中用户问题命中一个句子系统把整个段落送给模型回答就更有底气。6.3 索引方法与检索设置经济模式关键词检索省 token但精度略低。高质量模式向量检索精度高消耗 token。提供三种检索方式向量检索语义匹配找意思相近的。全文检索关键词匹配。混合检索两者结合再排序。可以启用 Rerank 模型进一步优化排序。参数调优TopK推荐 3~5。Score 阈值默认 0.5。资料杂就调高到 0.7资料少就降到 0.3。6.4 验证知识库效果处理完成后页面显示“嵌入完成”。在右侧“召回测试”里输入问题系统会显示召回的片段和相似度分数。分数越高说明匹配越好——如果召回结果不理想回去调整分段规则或阈值。6.5 在工作流中使用知识库方式一Agent 直接引用创建 Agent 应用在上下文里添加知识库就可以直接对话。方式二工作流Chatflow引用创建 Chatflow 应用。在 LLM 节点前加一个“知识检索”节点选择你的知识库。LLM 节点的上下文选择检索节点的result。系统提示词写请根据文本内容{{#context#}}回答。加一个“直接回复”节点输出结果。试运行。关键设计思路先查知识库如果有结果就用知识库回答如果没结果Score 太低可以调用联网搜索兜底最后大模型润色成自然语言。千万不要把检索到的原始片段直接丢给用户一定要让大模型整理一下。七、高级进阶用工作流自动生成微调语料微调Fine-tuning是用你的专业数据再训练大模型让它变成某个领域的专家。但微调的第一步就是准备“问答对”数据集手动整理几百条太累人。Dify 的工作流可以帮你批量生成。微调语料的标准格式是 JSONL每行一个 JSON 对象包含messages数组里面有三个角色system系统指令比如“你是一个科普达人”user用户问题assistant模型回答工作流节点构成开始节点接收两个输入——attachments上传文档和systemprompt系统提示词。文档提取器解析文档内容注意不支持 Word。代码执行节点因为 Dify 的 LLM 有上下文长度限制用代码把文档截取前 800 字符你也可以改成 2000但要看你用的模型窗口大小。LLM 节点系统提示词定义角色和生成规范要求每次生成 10 个生活化问题答案必须基于原文输出严格的 JSONL 格式。结束节点输出 JSONL 文本。运行后你会得到一批问答对保存为.jsonl文件以后微调模型时直接喂给训练框架。这个案例展示了 Dify “代码节点 LLM 节点”协同工作的强大之处——不仅能做问答还能帮你准备训练数据打通整个 AI 应用生命周期。八、再进一步接入 RAGFlow 处理扫描版 PDFDify 自带知识库对扫描版 PDF图片型解析效果不够好。这时候引入RAGFlow——一个基于深度文档理解DeepDoc的开源 RAG 引擎能通过 OCR、布局识别、表格结构识别把图片里的文字精准提取出来。8.1 安装 RAGFlow小心端口冲突因为 Dify 已经占用了 80 端口和 6379 Redis 端口RAGFlow 必须错开克隆源码git clone https://github.com/infiniflow/RAGFlow.git。进入docker目录修改docker-compose.yml把 web 端口映射从80:80改成8880:80。修改.env文件把 Redis 端口从 6379 改成6380。执行docker compose up -d。浏览器访问127.0.0.1:8880注册登录。8.2 在 RAGFlow 中创建知识库点击“知识库” → “新建”上传文档RAGFlow 提供多种分片方式针对不同文档类型优化General通用文档DOCX、PDF、PPT 等QA问答对Excel 或 CSVResume简历解析为结构化数据Manual手册按标题层级切分Table表格数据Paper论文按章节切分Book书籍可设置页面范围Laws法律文书按“ARTICLE”粒度RAGFlow 还支持知识图谱开启后能提升关系查询的效果。8.3 打通 Dify 和 RAGFlow这一步最容易踩坑在 RAGFlow 右上角头像 → API生成一个 API Key以ragflow-开头。获取你的局域网 IP命令行ipconfig或ifconfig一般是192.168.x.x。回到 Dify 的知识库页面点击“连接外部知识库”→ “外部知识库 API”。填入API Endpointhttp://{你的局域网IP}:9380/api/v1/dify。千万不能用127.0.0.1因为 Dify 运行在容器里容器内的 127.0.0.1 指向容器自己不是宿主机。API Key填刚才生成的ragflow-密钥。知识库 ID从 RAGFlow 知识库详情页的 URL 里获取。点击“连接”。连接成功后在 Dify 的 Agent 或工作流中上下文里就可以添加这个外部知识库了检索时自动调用 RAGFlow 的深度解析能力。九、数据库操作不只是检索还能增删改查知识库是“只读”的但数据库可以增、删、改、查结构化数据。以绩效数据表为例工号、姓名、绩效等级9.1 查询数据用户问“张三的绩效是多少”系统先提取关键信息人名“张三”字段“绩效”然后去数据库查name 张三的记录最后把结果比如“B级”用自然语言说出来。9.2 新增数据用户说“新增员工乔峰工号 666绩效 S。”系统抽取姓名、工号、绩效调用新增节点写入数据库。注意如果用户漏了必填字段系统应该提示而不是盲目新增。9.3 更新数据用户说“把乔峰工号 666 的绩效改成 D。”系统先用姓名工号定位唯一记录再更新绩效字段。为什么要用两个条件因为姓名可能重名工号如果用户输错也很危险联合条件更稳。9.4 删除数据用户说“删除乔峰工号 666 的绩效记录。”系统定位后删除。真实业务中删除要非常谨慎通常建议用“软删除”加一个“已删除”标记而不是物理删除。易错点工号虽然看起来是数字但通常不参与计算最好存成字符串避免前导 0 丢失。字段名、抽取字段名、节点绑定字段名必须完全一致。更新和删除必须有明确条件不能只靠姓名这种不稳定条件。十、总结与选型建议Dify vs Coze 怎么选维度CozeDify定位AI 应用商店/生态LLMOps 与 BaaS 平台目标用户非技术人员、运营、创作者开发者、AI 工程师、企业技术团队模型支持优先字节及国内模型相对封闭支持 50 开源与商用模型模型中立功能重心对话体验快速发布到飞书、抖音复杂工作流编排、精细 RAG 控制部署方式SaaS数据平台托管支持私有化部署数据自主可控开源协议部分组件开源开源Apache-2.0Open-Core简单结论个人练手、快速原型、发到社交平台 →选 Coze。企业级应用、私有化部署、复杂逻辑、深度定制 →选 Dify。可以先用 Coze 验证想法再移植到 Dify 做生产环境。十一、最后给你一张“避坑清单”❌ 知识库不是数据库不要混用。❌ 文档上传后一定要看分段效果分段不好检索就废。❌ 检索结果不要直接丢给用户必须大模型润色。❌ 知识库无结果时要有兜底联网搜索或提示。❌ 数据库字段名和节点绑定的字段名要完全一致。❌ 更新和删除必须用联合条件定位如姓名工号。❌ 工号存成字符串不要存数字。❌ 多模态节点的输入类型要改对图片用 image音频用 audio。❌ ASR 输出没标点记得后续处理。❌ 视频生成成本高、效果不稳定别过度承诺。读完这一篇你相当于同时掌握了Coze 的理论知识和Dify 平台的实战技能。接下来建议你打开电脑按顺序把工作流、知识库、RAGFlow 都跑一遍。犯错不怕Dify 的沙箱环境随便折腾——你离自己的第一个 AI 应用只差一个“试运行”按钮。