一句话总览Agent 感官感知 大脑LLM 记忆存储 规划思考 手脚执行一、五大核心组件总览组件类比核心职责LLM 推理引擎​大脑决策、推理、判断下一步动作感知模块​感官接收输入理解意图与环境记忆系统​存储保存上下文、经验与知识️规划模块​思考拆解任务、安排执行顺序行动执行模块​手脚调用工具、执行操作、反馈结果二、组件详解1️⃣ 感知模块PerceptionAgent 的“眼睛和耳朵”功能接收多模态输入文本用户指令文件PDF / Word / Excel网页HTML / API 返回图片OCR / 多模态模型数据库SQL / NoSQL 查询结果提取用户意图Intent任务边界Scope环境状态Context✅ 常见实现文本解析器文件加载器LoaderWeb ScraperEmbedding 向量化2️⃣ LLM 推理引擎Reasoning EngineAgent 的核心决策中心核心能力判断是否✅ 直接回答 调用工具Function Calling 重新规划Replan推理方式CoTChain of ThoughtReActReason ActSelf-Reflection自我反思典型推理流程用户输入 → 意图识别 → 是否需要工具 ├─ 否 → 直接回答 └─ 是 → 选择工具 → 生成参数✅ 关键模型能力强逻辑推理稳定 Function Calling可控输出格式JSON / XML3️⃣ 记忆系统Memory三层分级Agent 的“短期工作区 长期知识库”层级名称作用技术实现 L1短时记忆Working Memory​当前任务上下文Context Window L2情景记忆Episodic Memory​历史对话、任务记录对话历史 DB L3长期语义记忆Semantic Memory​知识库、业务文档RAG 向量数据库记忆流动示意当前输入 ↓ 短时记忆本轮对话 ↓ 情景记忆跨轮记忆 ↓ 长期记忆检索增强生成✅ 记忆解决的问题忘记前文重复提问事实性幻觉4️⃣ 规划模块PlanningAgent 的“项目经理”核心能力将复杂目标拆解为有序步骤可并行任务条件分支支持静态规划一次性拆完动态重规划工具失败 / 结果异常示例用户目标“帮我做一份竞品分析报告”① 收集竞品名单 ② 抓取官网与定价信息 ③ 分析产品功能差异 ④ 对比 SWOT ⑤ 生成 PPT 大纲✅ 常见算法LLM-based PlannerTree of ThoughtToTGraph-based Plan5️⃣ 行动执行模块Action / Tool UseAgent 的“手和脚”能力调用外部工具Tools执行代码Code Interpreter操作文件系统请求第三方 API写入数据库工具类型举例类别示例搜索Google / Bing / 内部搜索计算Python / Wolfram数据SQL / Excel / CSV通信Email / Webhook / IM文件读 / 写 / 生成文档执行闭环调用工具 → 获取结果 → 校验成功 → 反馈给 LLM三、五大组件协作关系图核心┌─────────────┐ │ 用户目标 │ └──────┬───────┘ ▼ ┌─────────────┐ │ 感知模块 │◄── 文本/文件/网页 └──────┬───────┘ ▼ ┌─────────────┐ │ LLM 推理引擎 │ │ 大脑 │ └──┬──────┬────┘ │ │ ┌─────────▼─┐ ┌▼─────────┐ │ 规划模块 │ │ 记忆系统 │ │ (任务拆解) │ │(短/中/长)│ └────┬──────┘ └────┬─────┘ │ │ ▼ ▼ ┌───────────────────────┐ │ 行动执行模块 │ │ (工具/API/代码) │ └──────────┬────────────┘ ▼ ┌───────────┐ │ 执行结果反馈 │ └───────────┘四、一句话记忆法Agent 不是“会说话的模型”而是​看得懂感知想得清LLM记得住记忆分得明规划干得了行动