一、AI 在特定领域下应用2017年以前早期AI核心主题AI 还是专家才能玩的技术聚焦特定任务关键概念1.1 名词解析与理解名词说明AI人工智能 让机器模拟人类智能行为的科学与技术总称目标是感知、理解、推理、决策、生成NLP自然语言处理AI 核心子领域解决机器理解和生成人类语言的问题 打通人机语言交互的壁垒CV计算机视觉AI 子领域让机器看懂图像和视频ASR语音识别AI 子领域语音转文本ML机器学习让模型从数据中学习规律的技术路径DL深度学习ML 的子集用多层神经网络自动学习数据表示RL强化学习通过试错反馈来优化模型输出的学习方式简单理解NLP自然语言处理 就像是管家能听懂客人说“我饿了”或者“我要买单”理解人类语言的能力。CV计算机视觉 就像是管家长了眼睛能看懂监控里“客人有没有招手”、“盘子里还剩多少菜”。ASR语音识别 简单来说就是“语音转文字”。客人点菜时说话它能把语音变成文字菜单。ML机器学习与 DL深度学习 这是管家学习技能的方法。给它看 10万张坏掉的番茄照片数据它自己摸索出规律神经网络以后就能自动把坏番茄挑出来。1.2 此阶段特点AI 只能完成特定场景下的任务文本分类、情感分析、机器翻译等技术瓶颈人类语言的歧义、语境依赖、抽象表达难以被准确理解需要专业人才才能使用和部署二、AI 技术走进大众视野2017—2023核心主题Transformer→LLM→ChatGPTAI 开始能和人对话2.1 Transformer 架构2017名词说明Transformer2017年 Google 团队提出的深度学习模型架构“设计蓝图”非具体模型- 自注意力机制《Attention Is All You Need》提出 Transformer 的论文自注意力机制Self-AttentionTransformer 的核心创新让机器处理某个词时能同时关注句子中所有相关词RNN循环神经网络Transformer 之前的主流 NLP 架构逐词顺序计算效率低、记不住上文Transformer 与自注意力机制 以前的 AI 听一句话只能一个字一个字往前读读到后面忘了前面。现在有了自注意力机制管家听一长串话时能同时联系上下文。比如你说“今天苹果公司发布会开得很好我很想吃苹果水果。”它能瞬间听懂这两个“苹果”是不一样的意思。Transformer 为什么重要解决了上下文依赖问题能关注所有相关词并行计算训练效率提升数十倍能支撑更大规模的数据和参数训练大模型的三要素 技术架构 数据 算力2.2 LLM 大型语言模型名词说明LLM大型语言模型Transformer架构的超级进化体参数量百亿到万亿级ChatGPT2022年11月发布基于 GPT-3.5 RLHF首个自然对话交互模型引爆 LLM 热潮RLHF人类反馈强化学习 Reinforcement Learning from Human Feedback用人类反馈来精细调优模型的对话能力GPT-22019年 OpenAI 发布15亿参数效果不够惊艳未掀起波澜涌现能力Emergent Abilities模型规模突破某个阈值后能力出现显著跃升而非线性增长LLM大型语言模型 也就是像ChatGPT、Gemini、Claude、DeepSeek这样的“超级大脑”。因为读了全世界几乎所有的书、网页和代码几百亿到上万亿的参数量它突然产生了一种“涌现能力”——就像小孩子突然开窍了一样不仅会聊天还会做逻辑推理、写代码。涌现能力的典型表现上下文学习Few-shot靠几个示例就能学会新任务链式思考Chain-of-Thought分步解释、规划解题步骤工具使用与代码能力指令遵循与稳健对话2.3 各大厂商跟进名词说明OpenAIGPT 系列MetaLLaMAGoogleGeminiAnthropicClaude深度求索DeepSeek2.4 提示工程Prompt Engineering名词说明提示工程通过精心设计的自然语言指令让 AI 准确理解需求、稳定输出高质量结果的方法论“Let’s think step by step”经典提示词技巧加上这句话能显著提升推理正确率《GPT 最佳实践》2023年6月 OpenAI 发布六大策略标志着提示工程进入标准化阶段《Prompt-Engineering-Guide》社区最经典的提示词方法论60K StarLangGPT提示词的结构化编写方法提示工程Prompt Engineering 既然这个管家博古通今你怎么问它就很重要。提示工程就是“和 AI 说话的艺术”。比如你直接问它“怎么管餐厅”它可能敷衍你但如果你加一句经典提示词“请你作为 20 年经验的米其林餐厅经理一步一步思考并回答Let’s think step by step”它的回答质量就会飙升。核心价值 无需改动模型本身仅通过优化输入即可引导模型行为prompt-Engineering-Guide三、AI 与真实世界进行交互2023—2024 核心主题解决 LLM 两大短板 — “知识过时” 和 “无法使用工具”RAG 与 工具 — 给大脑插上硬盘和双手3.1 RAG检索增强生成— 知识补给通道名词说明RAGRetrieval-Augmented Generation先检索外部文档再生成回答的技术解决知识过时和私有数据问题Meta AI2020年论文首次提出检索生成融合思路NeurIPS 2020接收了 RAG 论文嵌入模型Embedding专门用于 RAG 的向量化模型RAG检索增强生成 给管家配一个“公司内部加密硬盘”。当客人问“你们餐厅隐藏的招牌菜是什么”管家自己可能不知道但它会先去硬盘里检索Embedding 向量化内部菜单找到后再用自己的大白话组织语言回答。这样既不会瞎编减少幻觉又保护了商业机密。RAG 三大优势无需重新训练模型更新知识库即可保障数据隐私答案可溯源缓解幻觉问题3.2 Function Calling工具调用— 行动能力通道名词说明Function Calling函数调用/工具调用LLM 主动触发外部工具接口的能力2023年 OpenAI 开始普及Coze扣子以插件市场为核心的 AI 应用低代码搭建平台Langchain2022年底开源的 AI 应用开发框架模块化组合模型、工具、记忆体LlamaIndexRAG 组件化开发框架Function Calling工具调用 给管家装上一双手。当客人说“帮我订一个今晚 8 点的位子”管家自己没有订位系统但它会触发一个“订位工具”的开关自动把客人的名字和时间填进餐厅的订位系统里。3.3 MCP 协议 — 统一工具交互标准名词说明MCPModel Context Protocol2024年底 Anthropic 推出统一 LLM 与外部工具的交互标准**模型上下文协议**MCP Server按 MCP 协议开发的工具服务可跨平台复用MCP Host支持 MCP 协议的 LLM 应用平台MCP 的意义结束了各平台工具不通用的问题大幅降低工具开发门槛为 Agent 大爆发奠定基础四、AI 看见和理解真实世界多模态核心主题从单一模态到多模态AI 获得多感官4.1 技术演进线时间名词说明2020ViTVision TransformerGoogle 提出将图像分割为图像块输入 Transformer证明 Transformer 可处理图像2021CLIPOpenAI 发布用对比学习让模型同时理解图像和文本4亿图像文本对训练2022Diffusion Model扩散模型图像生成领域主流技术“雕塑家”2022DALL-E 2 / Midjourney / Stable Diffusion文生图三大巨头CLIP Diffusion Model 的结合2023GPT-4V大模型正式具备视觉理解能力2023GeminiGoogle 发布原生多模态设计2024SoraOpenAI 发布AI 视频生成里程碑模拟真实物理规律2024即梦字节/ 可灵快手国产 AI 视频生成工具2025GPT-4o原生图像生成 吉卜力风格现象级刷屏2025Gemini 2.5 Flash ImageNano Banana全民手办热潮4.2 核心关系理解CLIP “艺术总监”理解文字需求翻译为视觉概念Diffusion Model “雕塑家”根据指导生成高质量图像两者结合 → 文生图能力五、AI 开源和领域大模型2025核心主题DeepSeek R1 打破闭源垄断开源生态繁荣名词说明DeepSeek R12025年发布MIT 开源协议仅 550万美元训练成本接近闭源顶级模型MIT 开源协议完全开放权重和训练框架Ollama本地部署开源模型的客户端工具蒸馏版模型从大模型蒸馏出的小型高效模型GPT-OSSOpenAI 后来推出的开源模型受 R1 影响垂直领域大模型针对金融、法律、医疗等特定行业训练的专属模型模型一体机硬件 已部署模型的打包产品腾讯元宝腾讯接入 DeepSeek R1 后逆袭的 AI 产品DeepSeek R1 的影响证明了低成本高性能开源路线的可行性迫使闭源厂商OpenAI、百度拥抱开源让中小企业和个人也能部署自己的 LLM带动垂直领域大模型热潮六、AI 改变传统编码方式核心主题从代码提示 → AI IDE → Agent 式编程时间名词说明2021GitHub Copilot第一个 AI 辅助编程工具基于 Codex 0.1GPT-3 微调版2023Cursor首个基于 VSCode 二次开发的完整 AI IDE初期使用 Claude 1.02024Claude 3.5让 Cursor 真正起飞的模型编程测评超越同期所有模型2024-25Windsurf / TRAE其他 AI IDE 跟进产品2025Claude Code纯终端 AI 编程工具AI 主导的执行模式2025Vibe Coding氛围编程Andrej Karpathy 提出不关心底层逻辑编排跟着感觉和意图编码Vibe Coding 对程序员的影响加速贬值初级编程技能CRUD、基础前端被 AI 取代需求提升系统架构能力、问题抽象能力、AI 协作能力变得更重要一人公司兴起高阶程序员 AI 原先一个团队的产出七、AI 自主决策完成真实任务Agent2025核心主题AI 从被动回答到自主做事7.1 Agent 爆发的标志性事件名词说明Manus2025年初刷屏的 AI Agent 产品让大众认识到 AI 可以自主完成任务2025 Agent 元年各种 AI Agent 应用井喷式出现7.2 Agent 之父 — 姚顺雨 的研究脉络时间成果说明2020CALM普林斯顿读博第一项工作研究用语言模型作为 Agent 玩语言游戏2022ReAct让 LLM 交替进行推理和行动成为 Agent 最经典的工作模式2023SWE-bench用真实 GitHub Issue 测试 AI 解决真实代码问题的能力基准2024SWE-agent像软件工程师一样理解问题→探索代码→定位→修改→测试7.3 Agent 的核心特点自主决策自主判断是否需要工具、调用哪种工具、何时停止ReAct 模式推理Reasoning↔ 行动Acting交替进行7.4 Agent 爆发的两大支撑因素LLM 能力跃升推理、上下文理解、工具调用稳定性MCP 协议统一工具交互标准繁荣的工具生态7.5 上下文工程Context Engineering为 Agent 构建完美工作环境的方法论教开发者如何为 Agent 设计信息供给系统与提示工程的区别提示工程 教用户如何更好地提问上下文工程 教开发者如何为 Agent 构建能自主思考的工作环境7.6 当前 Agent 的局限只能在特定领域胜任不存在完全通用的 Agent长上下文稳定性不足复杂决策中的幻觉问题长任务链的错误累积八、未来展望通往 AGI核心主题当前处于 Level 2向 Level 3 迈进AGI 等级框架Google DeepMind 提出等级名称说明Level 0No AI硬编码规则无机器学习Level 1Emerging涌现略优于不熟练人类能聊但会错如 ChatGPTLevel 2Competent胜任← 当前 AI 普遍水平Level 3Expert专家多领域排进人类前 10%Level 4Virtuoso大师人类前 1%跨学科创新Level 5Superhuman超人全面超越 100% 人类关键名词AGI通用人工智能 能像人类一样理解、学习、推理和适应各种未知环境的 AI 系统九、问题与总结1、“既然大模型有涌现能力和强推理能力为什么我们在企业落地时还要做 RAG它能解决什么问题有何局限”RAG主要是解决大模型的幻觉知识滞后和企业私有数据隐私的问题优势在于无需重新训练或微调Fine-tuning模型通过 Embedding向量化检索外部知识库再喂给 LLM 生成回答成本低且答案可溯源。2、“你是如何理解 Agent 的它和传统的 Prompt 工程有什么本质区别”提示工程Prompt是 “人”教大模型如何被动回答**而 Agent智能体 是让AI 自主决策。它依靠ReAct推理行动模式自己判断什么时候该用工具、用什么工具、发现错了怎么修正真正做到“自主做事”。3、在 AI IDE 普及的时代你觉得研发/产品人员的核心价值是什么”初级编码技能正在加速贬值。个人的核心竞争力正在向系统架构能力、问题抽象能力、边界与风险控制以及拆解复杂业务的逻辑能力迁移。4、“你如何看待 Andrej Karpathy 提出的 Vibe Coding氛围编程Vibe Coding氛围编程意味着开发者逐渐脱离底层的语法、CRUD 编写和繁琐的代码编排转而通过声明意图、高级指令来驱动 AI 完成核心代码实现。5、“DeepSeek R1 的出现对企业级 AI 落地带来了什么改变如果你要为公司部署 AI你会怎么选型”DeepSeek R1 证明了“低成本训练高性能模型”的可行性。它降低了企业引入大模型的门槛MIT 开源协议使得商业化非常友好。选型策略 目前的趋势是“大模型蒸馏 本地化部署 垂直领域微调”。企业可以使用 Ollama 等工具在本地部署蒸馏版的小型高效模型结合公司特定行业金融、法律、医疗的数据训练垂直领域大模型或做模型一体机既保障了数据安全又极大地压低了算力成本。