《Agent开发工程师成长指南》- 第2章 第1节:GPT到底是什么?从语言模型到智能体“大脑”的演进之路
第一卷大模型基础篇第2章 大模型基础原理第1节GPT到底是什么从语言模型到智能体“大脑”的演进之路《Agent开发工程师成长指南》系列教程引言在正式学习Prompt、RAG、Agent之前。我们必须先回答一个最基础的问题GPT到底是什么很多人每天都在使用ChatGPT。但真正理解GPT工作原理的人并不多。有人认为GPT是搜索引擎有人认为GPT是知识库还有人认为GPT是超级数据库事实上。这些理解都不准确。因为GPT本质上既不是搜索引擎也不是数据库而是一种概率预测模型。理解这一点。是后续学习Agent开发的基础。一、GPT到底是什么GPT全称Generative Pre-trained Transformer中文生成式预训练Transformer模型名字虽然很长。实际上可以拆成三个部分GGenerative生成式表示能够生成内容例如生成文章代码PPT邮件SQL而不仅仅是选择答案。PPre-trained预训练表示提前学习大量知识模型在训练阶段阅读了海量文本。例如书籍论文网站技术文档从中学习语言规律。TTransformer表示模型底层架构Transformer是目前绝大部分大模型的基础架构。例如GPT系列Claude系列Gemini系列Qwen系列DeepSeek系列本质都建立在Transformer体系之上。二、GPT最核心的能力是什么很多人以为GPT会思考。实际上更准确地说GPT最核心能力是预测下一个Token例如输入中国的首都是模型内部会计算北京出现的概率最高。于是输出北京再例如输入Java是一门模型可能预测编程语言概率最高。于是输出编程语言从底层来看。GPT一直在重复预测下一个Token这个过程。三、什么是Token学习大模型。必须理解Token。很多新人会误认为1个汉字 1个Token实际上并不准确。例如你好可能被拆成你 好而ChatGPT可能被拆成Chat GPT甚至Agent开发工程师也可能拆成多个Token。因此Token不是字符。而是模型理解语言的最小单位。四、为什么GPT看起来像在思考这是很多人最疑惑的问题。既然GPT只是预测Token。为什么它能写代码解数学题写论文设计架构看起来像人在思考原因是涌现能力Emergent Ability当模型参数规模达到一定程度后。会突然出现很多能力。例如推理能力归纳能力规划能力这些能力并不是程序员写进去的。而是在大规模训练过程中自然形成的。这也是大模型革命的核心原因之一。五、GPT和搜索引擎有什么区别很多初学者会混淆。搜索引擎例如GoogleBing工作方式用户提问 ↓ 搜索网页 ↓ 返回结果本质检索GPT用户提问 ↓ 模型推理 ↓ 生成答案本质生成因此搜索引擎回答网页里有什么GPT回答模型认为应该输出什么这也是为什么GPT会产生幻觉。六、GPT为什么会产生幻觉例如你问火星上最大的城市叫什么现实中火星没有城市但模型可能回答某某城市为什么因为GPT本质任务是生成最合理的答案而不是验证事实当缺乏真实知识时。模型依然会尝试生成内容。这就是Hallucination即幻觉这也是后面RAG出现的重要原因。七、GPT为什么能成为Agent的大脑因为Agent需要三个核心能力理解例如帮我分析销售数据Agent必须理解用户真正想做什么推理例如应该先查数据 还是先生成报告规划例如查询数据 ↓ 分析数据 ↓ 生成图表 ↓ 生成PPT这些能力。都来自GPT。因此Agent架构中GPT 大脑而Tool 双手Memory 记忆Workflow 执行流程共同构成完整Agent系统。八、GPT的发展历程理解GPT的发展。有助于理解整个AI行业。GPT-12018参数1.17亿证明Transformer可行GPT-22019参数15亿开始展现文本生成能力。GPT-32020参数1750亿Few-Shot能力出现。ChatGPT2022真正引爆AI时代。GPT-42023推理能力大幅提升。推理模型时代2024-2026例如o系列模型DeepSeek-R1开始具备思维链推理能力九、GPT的能力边界虽然GPT很强。但并不是万能。它不知道实时数据例如今天股票价格企业私有知识例如公司内部制度用户本地文件例如电脑里的文档因此需要RAG补充知识。Tool Calling连接系统。Agent执行任务。这也是后面章节要学习的内容。十、作为Agent工程师需要掌握到什么程度好消息是你不需要成为算法专家。对于Agent工程师掌握GPT是什么Transformer是什么Token是什么Context是什么幻觉为什么产生就已经足够。重点不是训练模型。而是利用模型创造价值面试题问题1GPT全称是什么参考答案GPT全称是 Generative Pre-trained Transformer即生成式预训练Transformer模型。问题2GPT最核心的工作原理是什么参考答案预测下一个Token通过不断预测后续Token生成完整内容。问题3GPT为什么会产生幻觉参考答案因为GPT的目标是生成概率最高的内容而不是验证事实真实性当缺乏知识时仍可能生成看似合理但错误的信息。问题4为什么GPT能够成为Agent的大脑参考答案因为GPT具备理解、推理和规划能力可以帮助Agent完成任务分析、决策和执行规划。本章小结本节我们学习了✅ GPT的完整含义✅ GPT的核心工作原理✅ Token概念✅ GPT与搜索引擎区别✅ 幻觉产生原因✅ GPT为什么能成为Agent的大脑从下一节开始。我们将进入真正的大模型底层世界。学习支撑整个GPT体系的核心架构。下一篇《第2章 第2节Transformer架构详解——改变AI世界的革命性发明》