导读上周去某大学做了一场关于 Agent 的分享另外比较惊讶的是大家对于 Agent 是什么是比较陌生的另一方面我也比较惊异于自己居然无法站在小白的角度描述什么是 Agent所以有些必要的科普还是得捡起来啊由此有了几天这篇 Agent 概述类文章软硬适中不知道大家是什么时候开始接触 Agent我们作为 AI 行业的一线参与者/开发者最早接触 Agent的 应该是 cursor、windsurf 这类 AI 编程工具当时我们用它写代码修 bug输出接口文档等等。其实当时我根本不知道它们是 Agent我们只是把它当成了一个开发工具我相信行业很多人都是同样认知直到拐点事件爆发2025年3月Manus AI 在 YouTube 发布了公开视频《Introducing Manus: The General AI Agent》视频中给出的一些案例简历分析股票分析房产分析云端执行。这些案例看起来让人兴奋市场情绪也被点燃为了抢先体验manus本来免费的邀请码一度炒到上万元的价格当时我们做的AI应用 还只是一般的知识问答、意图识别文本分类等复杂一点的再加上一个 RAG。Manus 的发布让我们看到了原来 AI 还可以完全自主运行完成任务同时也让 Agent 这个词进入大众的视野More Context Less Control 的 ReAct 范式逐步为大家所接受什么是 Agent其实在 Manus 之前就已经有很多类似产品了比如2022 年的论文《ReAct: Synergizing Reasoning and Acting in Language Models》然后早期、又出圈的 Agent 的话是 2023 年 3 月的开源项目 Auto-GPT但国内的话还是 Manus 的发布给我们打开了 AI 应用新的视野。于是我们团队开始马不停蹄的研究如何实现一个 Manus经过我们研究和讨论发现Manus 实现起来好像不难我们可以预先定义一些工具函数让模型再做推理的时候选择一个工具应用层负责执行工具把结果回传给模型让模型继续推理直到问题解决如果让我们给 Agent 下一个定义我想可以这么说Agent 是一个能够自主感知环境做出决策调用工具并执行任务最终完成目标的任务执行系统这句话里面的每一个词都很重要只不过现阶段的要点逐渐变成了构造环境了Harness自主Agent不需要人一步一步的指示它会根据任务目标自动做决策感知意味 Agent可以和外部环境通信可以观察外部环境工具这个是Agent能够做事的前提它有什么样的工具就有了什么样的能力目标Agent需要围绕用户任务目标而存在不是在哪里瞎聊天我们再来看看普通的聊天机器人和 Agent 有什么区别以 deepseek 来举例 在官网网站提供的聊天框里面输入帮我整理一下上个月的销售数据按区域分析一下增长率做成PPTDeepseek 会给出一个文本的回答我没办法直接帮你整理数据或生成PPT文件但我可以教你一步步整理数据、计算增长率、提炼分析结论并给你PPT的结构和内容建议。你需要先提供以下信息......基座模型更像是一个百科全书什么都知道你问它什么它就回答你什么。而Agent我们可以把它比喻成一个数字员工你给它一个任务它会自己拆解任务自己想办法完成任务比如上面的问题它会去打开 excel查看数据自己写公式 计算增长率自己做 ppt…中途它可能回来找你确认一些事情销售数据的 excel 在哪里PPT 你喜欢什么风格等等。这就是 Agent 和 ChatBot 的区别ChatBot 是被动的对话伙伴你问一句它回一句Agent 是主动的任务执行者Agent 由什么组成的如果把一个 Agent 拆开来看我们可以发现 Agent 其实由几个核心模块组成大模型提供基础的语言理解和生成能力负责处理输入信息并输出推理结果角色与人格定义Agent的应答风格身份和行为约束让输出符合预期场景记忆包括短期记忆和长期记忆用于跟踪任务进度和提供个性化响应工具外部功能的接口和函数规划将复杂任务分解为可执行的子步骤用于处理多不推理和流程化的任务循环控制Agent反复执行的过程包含思考工具执行观察结果等直到任务完成这些模块共同构成了 Agent 从接收输入到输出结果的完整流程下面我们对这些核心模块逐一说明大模型Agent的中枢神经毫无疑问是大语言模型无论是GPT、Claude、Gemini还是国内的DeepSeek、通义千问等它们在Agent中扮演的都是大脑的角色。这里有一个很关键的点很多人把大模型理解成了Agent这里需要明确一下大模型不是Agent它是Agent的一部分大模型它能思考它是一个百科全书知道很多事情但是无法对外部世界产生任何影响。大模型在Agent中负责三件事情理解理解用户的指令、外部环境信息推理这件事情要怎么做下一步需要做什么生成输出文字代码工具调用的指令我们可以理解成大模型是整个Agent系统的指挥官但是他不会自己做任何事情角色与人格你有想过这个问题吗都是基于Deepseek模型我们可以开发出不同的Agent产品有的Agent用来写代码有的Agent 做客服有的Agent当陪聊。它们最核心的区别就是 System Prompt系统提示词我们可以把System Prompt 当做的Agent的出厂基本配置它会告诉大模型:你现在是一个资深的Python工程师你需要保持耐心永远不要和用户说脏话遇到不会的问题你应该回答用户 不确定而不是编造答案这个设定决定了Agent的人格做事风格能力边界一个好的 System Prompt能让同一个底层模型演变成无数个不同的Agent。记忆人们能够高效的完成工作很大程度上 是因为我们拥有记忆今天的我记得昨天发生的事情也记得三年前的承诺记得童年的味道这些记忆塑造我们的判断和决策甚至我们的个性。Agent也需要记忆因为大模型是健忘的无状态它没有任何持久化的记忆每一次对话都是一次重新的开始所以Agent需要一套记忆系统。每次新对话就把对应的记忆一起发送给大模型我们通常把记忆分为2层短期记忆 对应当前对话或任务执行期间的上下文窗口用于跟踪当前任务步骤历史变量中间推理结果等一旦对话结束短期记忆通常会被清空长期记忆 把重要的信息保存下来跨对话、跨任务复用比如用户偏好项目的关键决策失败教训等等实现长期记忆的方式也是五花八门的向量数据库做语义检索如 Chroma、Pinecone适合存储原文模糊匹配能根据语义相似度召回的相关记忆知识图谱做结构化存储将记忆表示为实体和关系能够沿着关系链条一步步查找信息能够支持精确推理和多跳查询直接写到文件里面摘要式记忆每次交互后让模型自动生成一段简短摘要只保存要点节省存储空间也方便直接放进对话里。这些方式并不是单独存在一般都是混合使用。Agent的记忆设计目前是做活跃的研究方向之一是因为它从根本上决定了Agent能否实现成长从经验中持续学习和改进同时也决定了Agent能否保持行为的一致性、完成跨长时间尺度的复杂任务以及在与环境或用户的反复交互中真正沉淀出个性化的智能。工具我们常常听到一个比喻就是大模型是Agent的大脑工具就是Agent的手脚没有工具的Agent就是一个Chatbox。工具的本质是一组Agent可以调用的函数每一个工具有名称描述参数有返回值。Agent在思考过程中会根据工具的名称和描述来选择合适的工具来帮助完成用户的任务。常见的工具大致可以分为以下几类:信息获取类网页搜索、API查询、数据库读取文件操作类读文件、写文件、列目录代码执行类运行Python、执行SQL、调用Shell通信类发邮件、发消息、打电话专业领域类调用医疗诊断API、调用财务分析模型工具的丰富程度直接决定了Agent的能力边界如果只有一个搜索工具的Agent那么Agent还是一个百科全书只能回答问题。而一个能读写文件操作浏览器的Agent就具备实际动手能力可以自动完成任务。规划复杂任务不是一蹴而就的。如果你让Agent 去分析 公司去年的财务报表并给出改进的建议。它不能直接就给你答案他需要拆解任务先要获取财务数据做关键指标计算再做同比环比分析找出问题再给出建议最后整理成报告这种把大任务拆成小步骤理清先后顺序的能力我们加它称为规划Planning业界探索了很多规划方法我们把它分为3类React Reasoning Acting让模型在每一步都先思考再行动思考和执行交替执行。Plan-and-Solve 模型先把整个计划写出来然后再逐步执行Tree of Thoughts 让模型像下棋一样同时推演多个可能得路径每一种方法都各有优劣也可以把不同的方式组合起来使用比如 可以先用Plan-and-Solve把步骤都先写出来然后每一步 都使用React来进行。 核心思想 就是让Agent在行动之前先思考循环上面我们讲了Agent的 大脑工具记忆规划能力现在还差最后一步让它们联动起来这就是我们常说的感知思考行动循环我们也称它为Agent Loop。Agent Loop 的循环处理流程是这样的1、接收用户输入2、大模型思考要完成用户的任务要怎么做调用工具还是直接回答用户3、如果大模型决定调用工具Agent就执行模型返回的工具把工具结果作为添加到模型的消息数据里面回到第2步 再次让模型判断4、如果大模型决定输出最终答案就结束这个循环可能执行5次就结束了也有可能会跑500次。它的终止条件可能是任务正常完成也可能是达到了Agent设置的步数上限或者Agent自己决定放弃不再执行。Agent Loop把前面讲将的模型工具记忆能力都串联起来在一个循环中大模型负责思考推理决定下一步做什么如果需要调用工具则执行工具将工具结果或者模型的推理输出保存为记忆。这个看似简单的循环让Agent从一个回答的工具变成了一个能持续工作的数字员工。Agent能干什么前面我们聊了Agent的实现原理那么今天Agent到底能帮我们做些什么呢编程Agent如果要让我们选一个Agent最成熟的应用领域我觉得毫无疑问就是编程Agent。Claude Code、Cursor 、CodeX、Trae等工具从最初的代码补全逐步发展成能完整完成功能开发的Agent你只需要给它一个需求比如:“帮我写一个登录界面要支持短信验证码登录”它就会自己读取完整的项目目录分析技术路径设计接口然后写代码跑测试自己修改bug。为什么编程领域的Agent会最先落地编程任务有大量的高质量训练数据github上几十亿行代码给模型提供了足够的学习素材编程任务有非常清晰的反馈信号代码能不能跑通有没有语法错误测试是否通过模型自己就可以判断。程序员天生爱偷懒自己就会想方设法的搞工具来提高开发效率只要能完成大部分体力工作能节省时间即便部分有错误他们也愿意接受。很容易搜集反馈数据比如接受/拒绝代码可以反补模型训练研究助手模型擅长阅读海量文档、总结要点、生成综述因此天然适合充当研究助手。无论是文献调研、数据整理还是竞品分析Agent都能在几分钟内完成人类数小时的工作。客服与运营客服和运营这类自动化流程才是Agent商业化最大的战场智能客服电商的售前和售后企业内部工作台工单系统等。这些场景过去大量依赖员工后面大部分的工作 都会被Agent接管这个是真正发生的事情很多企业都在内部提效大量使用Agent来提高工作效率。将内部业务系统与Agent打通后Agent就可以查订单改地址发优惠券审核套餐等。个人助理普通人可能更加在乎的是一个个人助理Agent那种你脑海里想象的电影里面见过的帮助你订机票安排日程提醒你别忘了 女朋友生日的全能助理就像前段时间爆火的openclaw目前这种Agent还没有一个真正成熟的产品但我相信不久的将来它一定会出现这个个人Agent我觉得是最难的如果要表现很亮眼它需要打通的工具太多了你的邮箱日历微信支付宝以及其他各种你经常使用的App目前这些都没有对应的工具体系账号和数据都是不通的虽然技术上可以实现但是厂商的壁垒挺高的。结语抓住大模型时代的职业机遇AI大模型的发展不是“替代人类”而是“重塑职业价值”——它淘汰的是重复性、低附加值的工作却催生了更多需要“技术业务”交叉能力的高端岗位。对于求职者而言想要在这波浪潮中立足不仅需要掌握Python、TensorFlow/PyTorch等技术工具更要深入理解目标行业的业务逻辑如金融的风险控制、医疗的临床需求成为“懂技术、懂业务”的复合型人才。无论是技术研发岗如算法工程师、研究员还是业务落地岗如产品经理、应用工程师大模型都为不同背景的职场人提供了广阔的发展空间。只要保持学习热情紧跟技术趋势就能在AI大模型时代找到属于自己的职业新蓝海。最近两年大模型发展很迅速在理论研究方面得到很大的拓展基础模型的能力也取得重大突破大模型现在正在积极探索落地的方向如果与各行各业结合起来是未来落地的一个重大研究方向大模型应用工程师年包50w属于中等水平如果想要入门大模型那现在正是最佳时机2025年Agent的元年2026年将会百花齐放相应的应用将覆盖文本视频语音图像等全模态如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享扫描下方csdn官方合作二维码获取哦给大家推荐一个大模型应用学习路线这个学习路线的具体内容如下第一节提示词工程提示词是用于与AI模型沟通交流的这一部分主要介绍基本概念和相应的实践高级的提示词工程来实现模型最佳效果以现实案例为基础进行案例讲解在企业中除了微调之外最喜欢的就是用提示词工程技术来实现模型性能的提升第二节检索增强生成RAG可能大家经常会看见RAG这个名词这个就是将向量数据库与大模型结合的技术通过外部知识来增强改进提升大模型的回答结果这一部分主要介绍RAG架构与组件从零开始搭建RAG系统生成部署RAG性能优化等第三节微调预训练之后的模型想要在具体任务上进行适配那就需要通过微调来提升模型的性能能满足定制化的需求这一部分主要介绍微调的基础模型适配技术最佳实践的案例以及资源优化等内容第四节模型部署想要把预训练或者微调之后的模型应用于生产实践那就需要部署模型部署分为云端部署和本地部署部署的过程中需要考虑硬件支持服务器性能以及对性能进行优化使用过程中的监控维护等第五节人工智能系统和项目这一部分主要介绍自主人工智能系统包括代理框架决策框架多智能体系统以及实际应用然后通过实践项目应用前面学习到的知识包括端到端的实现行业相关情景等学完上面的大模型应用技术就可以去做一些开源的项目大模型领域现在非常注重项目的落地后续可以学习一些Agent框架等内容上面的资料做了一些整理有需要的同学可以下方添加二维码获取仅供学习使用