AI概念速览
文章摘要本文系统梳理了AI Agent领域的42个核心概念构建了从基础到进阶的完整知识框架。全文分为八大模块一、核心基础架构Model、Scaffolding、Harness等7个组件定义了Agent的构成要素二、执行流程与决策范式ReAct、Plan-and-Execute等4种模式揭示了Agent的思考方式三、上下文、知识与记忆Context、Memory、RAG等6个概念构建了Agent的信息底盘四、RAG与检索技术细节Query改写、混合检索等6项技术深入知识检索工程五、工具、协议与技能MCP、Skill等4个接口标准化了Agent的外部能力接入六、工程方法与系统设计Agent Engineering、Loop Engineering等6个工程学科确保Agent稳定运行七、评估与度量评价标准、SWE-bench等3个维度量化Agent性能八、演进方向与高级能力Agentic AI、自我进化等6个前沿方向展望Agent未来形态。本文旨在为读者提供结构化的AI Agent知识地图帮助快速掌握这一领域的核心概念与技术脉络。一、核心基础架构从 Model 到 Agent这一层解释 Agent 由哪些“零件”构成以及这些零件如何一层层组装起来。1. Model模型解释指裸的大语言模型本身如 Claude、GPT、Qwen、DeepSeek 等。它只负责“文本进、文本出”本身没有记忆、没有循环、不会主动行动。大白话Model 就是那个“光动嘴不动手”的大脑。它能表达意图但真正去执行需要别人帮它。2. Scaffolding脚手架解释指模型在推理时所“看到”的一切包括系统提示词、工具描述、输出格式约束等。它塑造了模型的行为边界但不负责运行逻辑。大白话Scaffolding 就是给模型看的“剧本”和“道具清单”。告诉它“你是谁、你能用什么、你要怎么回答”。3. Harness驾驭引擎解释Harness 是真正让模型“跑起来”的执行引擎。它负责循环调用模型、处理模型返回的工具调用请求、判断任务是否完成、控制停止条件。大白话Harness 就是那个“喊 Action 的导演”。整个 Agent 的“发动机”就是 Harness。精确公式Agent Model Scaffolding Harness。4. Tools工具解释Agent 的外部执行能力封装。LLM 只负责“说要做什么”Tools 负责“真正去做”。包括查询数据库、调用接口、读写文件、执行代码等。5. Orchestrator编排器 / 指挥家解释负责把多个 Agent 当作单元来调度的更高层级组件。它解决的核心问题是如何拆解顶层任务、决定下一个该哪个 Agent 行动、并把结果组合成连贯输出。大白话如果说 Harness 是一个“单兵作战系统”那 Orchestrator 就是“指挥官”——它不自己打仗而是决定派哪个兵、用什么战术。6. Agent智能体解释由 Model、Scaffolding、Harness 和 Tools 共同构成的完整系统。它能够理解目标、拆解任务、调用工具、观察结果、持续修正并最终完成任务。7. Chatbot聊天机器人解释主要基于上下文生成回答的系统不具备主动任务执行能力。与 Agent 的区别Agent 围绕目标进行任务执行Chatbot 围绕对话进行回复生成。二、执行流程与决策范式Agent 如何思考与行动这一层解释 Agent 内部的工作模式是“边想边做”还是“先想后做”如何反思和纠错8. Agent Loop智能体循环解释Agent 的核心运行机制是一个不断重复的“思考 → 行动 → 观察 → 修正”循环直到任务完成。9. ReAct推理-行动模式解释全称 Reasoning Acting。流程是思考Reasoning→ 行动Action→ 观察Observation→ 重复。Agent 在每一步都先想清楚再动手。10. Plan-and-Execute规划-执行模式解释先将任务分解为规划阶段和执行阶段。planner agent 生成详细任务规划executor agent 逐步执行。大白话ReAct 像“摸着石头过河”走一步看一步Plan-and-Execute 像“先看地图再出发”。11. Reflection反思模式解释Agent 在完成任务后或执行过程中对自身行为进行自我评估和修正的模式。它会检查自己的输出、发现错误、调整策略然后重新执行。大白话让 Agent 有“复盘”能力——做完后自己检查“我做对了吗有没有更好的做法”三、上下文、知识与记忆Agent 的信息底盘这一层解释 Agent “知道什么”以及“怎么记住”从短期会话到长期画像从向量检索到知识图谱。12. Context上下文解释本轮真正喂给模型的信息包括系统规则、用户任务、对话历史、工具结果、RAG 检索内容等。Memory 只有经过检索、筛选、压缩后才会成为本轮 Context。13. Context Engineering上下文工程解释系统性地管理和优化模型在决策时所能“看到”的全部信息。包括动态管理系统提示词、工具描述、对话历史、检索到的知识等。大白话Prompt Engineering 是“写好这一句指令”Context Engineering 是“管好模型每一步能看到的所有信息”。14. Memory记忆总体解释Agent 的外部信息存储系统独立于当前会话存在。工作记忆保存当前任务目标、任务计划、当前步骤、中间结果、错误信息存 Redis 或 DB。会话记忆保存当前会话中的对话历史、工具调用记录存 DB可压缩为摘要。长期记忆保存用户画像、项目背景、历史决策、业务规则存 DB 向量库。用户画像长期记忆的一部分保存用户基本信息、长期目标、偏好、专业方向。15. RAG检索增强生成解释在 Agent 中负责外部知识补充让 Agent 在回答或决策前先检索可靠资料解决模型知识不足、过时或缺乏企业内部数据的问题。核心流程查询理解 → 检索 → 重排 → 上下文组装 → LLM 生成。16. 知识图谱Knowledge Graph解释用图结构组织知识的方式核心由实体、关系、属性和来源证据组成。适合做关系查询、多跳推理和可解释问答。17. World Model世界模型解释试图让 AI 理解物理世界运行规律如物体交互、因果关系的模型。它让 AI 不仅能理解语言还能“想象”和“预测”世界的状态。大白话LLM 是“读过很多书的理论家”World Model 是“亲自观察过世界运行的实验家”。四、RAG 与检索技术细节让知识找得到、用得好这一层专门展开 RAG 内部的工程细节属于 Context Engineering 在知识检索维度的具体落地。18. Query 改写Query Rewriting解释在检索前对用户问题做预处理包括意图识别、问题补全、指代消解、同义词扩展、多 Query 生成。稳妥做法保留 original query 与 rewritten query 做多路召回避免改写跑偏。19. 混合检索Hybrid Search / Mixed Retrieval解释向量检索语义匹配 关键词检索BM25精确匹配结合。工具名、参数名、错误码等依赖精确匹配自然语言问题依赖语义匹配两者互补。20. Rerank重排解释召回阶段尽量找全TopN 较大重排阶段把最相关的内容排到前面TopK 较小。工程权衡会增加延迟可通过控制 TopN、缓存、轻量规则排序等方式优化。21. 切片策略Chunking Strategy常见策略固定长度切片带 overlap、标题/章节切片、递归切片、语义切片、父子切片小 Chunk 检索大 Chunk 提供上下文。22. Embedding 与向量数据库Vector DBEmbedding将文本转换成向量让语义相近的内容在向量空间中距离更近。向量数据库选型建议中小规模用 pgvector与 PostgreSQL 集成简单成本低大规模高并发用 Milvus检索性能强扩展性好。23. HyDE假设文档嵌入解释一种 query 改写技术先让 LLM 生成一个“假设答案”再用这个假设答案去做向量检索。大白话不知道该怎么搜时先猜答案可能长什么样拿猜的内容去搜。五、工具、协议与技能Agent 的手脚和接口这一层解释 Agent 如何“动手”做事以及如何标准化地接入外部能力。24. MCP模型上下文协议解释基于 JSON-RPC 的一套标准化接入规范将工具、数据源和服务统一封装成 MCP Server让 Agent 通过 MCP Client 统一发现和调用。传输方式stdio本地、SSE早期远程、HTTP现代远程。25. Skill技能解释把流程固定、重复性强的一类任务封装起来的“任务方法包”。包含 SKILL.md元数据执行流程、scripts、templates 等。加载方式渐进式加载启动时只加载名称和描述命中后再加载完整内容。26. A2A代理间协议解释由 Google 提出定义不同 Agent 之间如何通信和协作的开放标准实现跨平台、跨组织的 Agent 互联互通。27. OpenClaw解释基于 MCP 协议的具体应用能听懂自然语言指令、自主学习和执行任务的“数字员工”。大白话如果说 MCP 是“万能插座”标准那 OpenClaw 就是“插上就能用的家电”。六、工程方法与系统设计让 Agent 稳定跑起来这一层从软件工程视角出发解释如何将不稳定的 LLM 系统构建为可靠的生产级产品。28. Agent Engineering智能体工程解释将非确定性的 LLM 系统迭代优化为可靠的生产体验的过程。循环为构建 → 测试 → 上线 → 观测 → 优化 → 重复。29. Harness Engineering驾驭工程解释区别于具体的 Harness 引擎Harness Engineering 是构建这个引擎的工程学科关注如何设计让模型安全、稳定、可控地运行的系统外壳。30. Loop Engineering循环工程解释专注于设计 Agent 执行循环的进入条件、退出条件、错误恢复、循环次数控制避免陷入“死循环”doom loop。大白话设计这个循环怎么开始、怎么结束、卡住了怎么办。31. Environment Engineering环境工程解释通过将系统的“环境接口”重写为对 Agent 友好的结构化形态使 Agent 更容易成功。大白话与其费力训练一个司机在烂路上开车不如先把路修好。修路的收益大于训练司机。32. Workflow工作流解释一种预定义的、确定性的自动化流程所有执行路径在设计阶段就已固定适合标准化业务流程。33. Agentic Workflow代理式工作流解释由 Agent 自主驱动的工作流。执行路径由 Agent 在运行时根据目标动态生成和调整而非预先固定。七、评估与度量怎么判断 Agent 好不好这一层解释评价标准从传统的 AI 指标到面向业务和规模的新度量。34. Agent 评价标准Evaluation Metrics六个核心维度任务完成率准确性稳定性安全可控性效率与成本用户体验35. SWE-bench解释一个评估 Agent 编程能力的基准测试。给 Agent 一个真实开源项目的 issueAgent 分析仓库并生成 patch在 Docker 隔离环境中运行测试通过则视为 resolved。36. DAA日活智能体数解释由百度创始人李彦宏提出认为这是衡量 AI 时代产品价值的核心指标类似于互联网时代的 DAU日活跃用户数。大白话互联网时代比“每天有多少用户在用”AI 时代比“每天有多少 AI 智能体在跑”。八、演进方向与高级能力Agent 的未来形态这一层讨论 Agent 正在向什么方向进化更自主、更聪明、能自己付钱、能自我进化。37. Agentic AI代理式人工智能解释比单个 AI Agent 更高阶的概念指具备目标驱动、自主决策、长期规划和持续学习能力的 AI 系统。大白话AI Agent 是“能干活的数字员工”Agentic AI 是“能自己定 KPI、自己拆任务、自己复盘”的数字高管。38. Self-Improving / Learning Agent自我进化/学习型智能体解释能够通过与环境和用户的持续交互总结经验、反思失败、更新自身策略从而不断提升能力的 Agent。39. Agentic Memory智能体记忆解释为了进行长期规划和个性化服务而具备的持久化记忆能力超越简单对话历史能存储和调用用户偏好、任务状态、历史经验等。40. Agentic Payment Protocol智能体支付协议解释由中国信通院提出旨在解决 Agent 在自主执行任务如代表用户购物、订票时如何进行授权、支付和结算的问题。41. MIA记忆智能体解释Memory Intelligence Agent面向深度研究场景是一个持续运行的 Planning–Execution–Memory 闭环系统任务经验会不断沉淀反哺后续决策。大白话普通 Agent 是“做完就忘”MIA 是“越做越聪明”。42. Token词元解释AI 处理信息的最小计量单位。国家数据局已将其官方中文译名定为“词元”。