图解AI行业11种Agent生态,太全了
Cursor、Manus、Operator、Sierra、Harvey 都叫 Agent但差距比手机和电饭煲还大。Agent 这件事真正该按工种分类不是按技术分层。按工种看你立刻能看出谁在替你打工、谁的钱最好赚、谁还在 0 到 1 阶段。老王看过近半年市面上大部分的 Agent 产品翻了 a16z、Goldman Sachs、Anthropic 几份 2026 年 Q1 的调研报告以及 arxiv 上几篇最新的 Agent 综述论文发现绝大多数从业者讨论 Agent 时都在错的轴上对比这就是为什么读多少篇都拼不出Agent全貌。01PARTAgent 的四要素任何一个 Agent 本质都是同一个结构模型负责思考工具负责动作记忆负责连贯规划负责拆任务。学术综述把这四块再拆成感知、大脑、规划、动作、工具调用、协作六维产品经理视角下用四块已经够用。不同 Agent 差异不在结构在配比。编程 Agent 工具最多记忆最短客服 Agent 反过来具身 Agent 的工具是关节电机。Demo 谁更炫不重要谁配比合理才能落地。下面盘 11 个真正在跑的工种。02PART编程 Agent编程 Agent 是当前生态里最热、商业化最快的工种代表产品是 Cursor、Claude Code、Devin、Windsurf、GitHub Copilot Workspace。类比是程序员同事给它仓库访问权限和需求描述它自己读代码、改代码、跑测试、提交 PR24 小时不下班、不抱怨。工作环境是代码仓库加终端加浏览器三件套Cursor 把整个 IDE 都变成 Agent 工作台就是这个原因。核心机制是读代码、改代码、跑测试、看结果、决定下一步的循环Devin 一度宣称能跑 8 小时不停靠的就是这个循环的稳定性。真正的壁垒不在写代码在理解整个代码库几十万行的生产仓库塞不进上下文怎么决定看哪几个文件、推断改动会影响哪些下游模块才是核心护城河。反常识的是这条赛道看起来最挤实则壁垒最深。Cursor 一年从 1 亿美元 ARR 涨到 5 亿美元以上同样的工程师有没有 Cursor 产能差能到一倍这种确定性回报让企业付费意愿极强。其他工种没有这么硬的回报锚点。03PART浏览器 Agent浏览器 Agent 是替你点网页的工种代表产品是 OpenAI Operator、Browser Use、Manus、智谱 AutoGLM、Skyvern。类比是网络数据录入员给它一个任务从京东找出销量前十的扫地机器人把价格、评分、品牌录到表里它自己开浏览器、搜关键词、翻页、点详情、抓数据、填表全程不用动手。工作环境就是一个无头浏览器模型看到的不是网页本身而是截图加 DOM 结构。核心机制是截屏、决策、动作、验证的循环一个完整任务可能要跑几十甚至上百轮任何一轮卡住整个任务就崩。真正的壁垒不在模型多聪明在恢复力多强网页改一次 Agent 就崩淘宝今天换个按钮位置Agent 明天就找不到了。能不能识别走错、回到正确路径才是工程化的关键能力。中国团队在这条赛道上最有机会。淘宝、京东、美团、小红书各有各的反爬和反自动化逻辑这种复杂度逼出来的工程能力海外团队很难复制。Manus 一炮而红的根本原因不是模型多强是它在中国互联网场景里把恢复力和容错率打磨到了新高度。04PART电脑 Agent电脑 Agent 是直接控制整台电脑的工种代表产品是 Anthropic Claude Computer Use、OpenAI ChatGPT Agent、Google Project Mariner。类比是远程技术支持把屏幕分享给一个远程技术员他能看到全部内容能控制鼠标键盘帮你完成任务只是把人换成了模型。工作环境是一整台电脑可以是 Windows、macOS、Linux 或云端虚拟机。模型的输入是屏幕截图输出是鼠标坐标加点击加键盘按键。和浏览器 Agent 都跑截屏、决策、动作、验证的循环差异在于电脑 Agent 没有 DOM 这一语义层纯靠像素识别按钮、输入框、菜单在哪里精度大幅下降。从 2024 到 2026Claude Opus 4.7 和 GPT-5 把屏幕理解准确率从 70% 推到 92% 以上才把这个工种推过商业可用线。电脑 Agent 真正成熟的标志不是能做更多事是能做对更多事。当前所有电脑 Agent 在简单场景下都能跑差异都在复杂场景的成功率。视觉模型对屏幕的理解能力是未来三年的核心瓶颈这个瓶颈一旦突破所有 SaaS 软件的交互层都要被重新定义。05PART研究 Agent研究 Agent 是替你写报告、做研究的工种代表产品是 OpenAI ChatGPT Deep Research、Perplexity Pro、Google Gemini Deep Research、xAI Grok DeepSearch。类比是实习研究员你给一个研究问题它自己拆问题、跑搜索、读资料、整理观点产出一份带引用的报告。过去研究员花一天的活五分钟搞定每个观点都标好出处。工作环境是搜索引擎加网页阅读加文档处理一次任务可能跑 30 到 100 次搜索读几百个页面。核心机制是一条长链路把问题拆成子问题→每个子问题各自搜→读相关页面→按子问题归类→综合成报告并标来源。链路里任何一步出错报告质量都会打折。质量瓶颈不在模型聪不聪明在这条链路跑得稳不稳。同一个 Claude 模型在 Perplexity 和普通聊天框里跑研究任务质量差距巨大全部来自链路工程不是模型本身。研究 Agent 是 Agent 时代第一个真正意义上的杀手 App 形态。普通用户对编程、电脑 Agent 都没有强需求但对深度信息检索有强需求Perplexity 的崛起、ChatGPT Deep Research 上线后的高使用率都是证据。这条赛道的天花板不是 ChatGPT 取代 Google而是研究 Agent 取代研究员的部分工作。06PART数据分析 Agent数据分析 Agent 是替你处理数据、出图、出洞察的工种代表产品是 ChatGPT Data Analyst、Julius AI、Hex Magic、Anthropic Claude with Code Interpreter。类比是数据分析师给它一份 Excel 或 CSV 加一句我想看什么它自己跑统计、画图、出结论。过去要数据团队排期一周的活产品经理自己一小时就能拿到第一版。工作环境是 Python 沙盒加数据文件加可视化库核心机制是 Code Interpreter 加数据探索循环写代码、跑、看结果、改代码再跑直到满意。这个循环里数据探索能力远比写代码能力关键。真正难的不是写 Python是看懂数据语义一张表里 status 列写着 0、1、2Agent 不知道业务含义跑出来的分析就是错的。生产环境里的数据分析 Agent 必须先注入业务知识光靠模型读列名远远不够。Data Analyst 是当前 AI 第一个大规模冲击的白领岗位。一份初级分析报告Agent 五分钟能出质量打 70 分剩下 30% 是业务理解Agent 暂时替代不了。结果就是初级数据岗大幅萎缩中高级反而更值钱人能做的是把 Agent 那 70 分推到 95 分。07PART创意生成 Agent创意生成 Agent 是替你出图、出视频、出 UI 的工种代表产品是 v0、Krea、Recraft、即梦、Sora 系列、Midjourney 的 Agent 化版本。类比是设计师或视频剪辑师你描述风格和内容它自动生成。和早期生成模型的差别是创意 Agent 不再一次出图而是支持多轮编辑、迭代、组合可以来回调整直到满意。工作环境是画布加生成模型加提示词管理核心机制是多模态模型加多轮编辑加反馈循环。你说把人物的衣服换成红色Agent 知道你指的是上一张里那个人物而不是从零开始这种连续性是 Agent 形态和工具形态的本质区别。v0 能在 UI 生成跑出来就是把 UI 生成做成多轮迭代的 Agent而不是一次生成的工具。真正的难点不是创意是可控同一个人物、同一个场景、只改局部细节很难做到。靠一次出爆款的产品已经触顶接下来三年的胜负全在精细控制能力上。这个工种正在重塑设计、视频、广告整个产业链。一个广告创意原来要团队两周现在一个人加 Agent 三天能出。设计师不是被淘汰是工作流被彻底重构核心技能从画图本身转到指挥 Agent 画图。能用好 Agent 的设计师产能直接翻三倍跟不上节奏的会被工作流挤出去。08PART客服 Agent客服 Agent 是 24 小时在线的坐席工种代表产品是 Intercom Fin、Salesforce Agentforce、Sierra、Decagon。类比是客服坐席客户问问题Agent 先去知识库查能答直接答不能答升级到工单让人接手。对客户来说就是和一个客服在聊只是这个客服永远不下班、不烦躁、不出错、不离职。工作环境是客服系统加 CRM 加内部知识库加工单系统核心机制是 RAG 检索加多轮对话状态加工单升级判断三块找答案、记住客户上一句话、识别什么时候该把对话交给人。三块都做到位才算生产可用少一块就会答非所问或把简单问题升级给人效率反而下降。这个工种在科技圈被讨论得最少但卖得最猛、营收最稳Lyzr 2026 Q1 报告显示 49% 的客服团队已经部署了 AI AgentSierra 估值突破 100 亿美元Decagon 一年营收破亿。客服 Agent 是当前所有 Agent 工种里 ROI 最清晰的。一个客服员工一年成本 8 万到 15 万人民币Agent 接手 30% 工作量就能回本70% 就能净赚。这种确定性的回报让企业老板拍板特别快。这条赛道天花板不算高但安全垫极厚适合稳定型团队进场不适合追融资估值的玩家。09PART销售外呼 Agent销售外呼 Agent 是替你做线索跟进、邮件外联、电话开发的工种代表产品是 11x、Outreach AI、Apollo AI、Clay。类比是 AI SDR即销售开发代表给它一份客户名单它自动写个性化邮件、跟 LinkedIn 消息、安排会议、把有意向客户转给真人销售。Agent 自己跑完一万条线索只用一个夜晚。工作环境是 CRM 加邮件系统加 LinkedIn 加会议系统核心机制是潜客研究加多渠道触达加 CRM 写回。潜客研究扫描客户的 LinkedIn、公司动态、公开演讲提炼钩子多渠道按顺序在邮件、LinkedIn、电话上跟进CRM 写回把每次互动沉淀成结构化数据。这就是它区别于传统营销自动化的关键。真正的瓶颈不是话术是合规和送达率GDPR、CAN-SPAM、中国《反垃圾邮件法》都对群发设了门槛Gmail、Outlook 的反垃圾算法会把自动化邮件直接打到垃圾箱Agent 输出再漂亮也没人看到。这是 to B Agent 里 ROI 最直接的工种客户付的钱算得清。一个 SDR 一年成本 15 万到 30 万Agent 替代 50% 工作量就回本。11x 一年从 0 跑到 1500 万美元 ARR就是这个 ROI 模型在跑。中国市场对自动化外呼合规更严但场景更密集本土团队如果能把合规啃下来空间不会比海外小。10PART语音 Agent语音 Agent 是把语音能力做成 Agent 基础设施的工种代表产品是 Retell AI、ElevenLabs Voice、Bland AI、Vapi、Synthflow。类比是 24 小时不下班的电话坐席。和销售外呼 Agent 的区别是它不绑定单一业务场景而是一层能力医疗预约、酒店预订、保险理赔、客服热线、教育跟进、外呼营销都能用一家 Bland AI 同时跑五个场景。工作环境是电话系统加语音模型加业务知识库核心机制是 ASR 加 LLM 加 TTS 的实时流式管道ASR 把用户的话转成文字LLM 决定怎么回应TTS 把回应变成人声。三块都要支持流式边接收边处理任何一块卡半秒整段对话就像机器人。最大瓶颈不是声音像不像人是对话的实时性端到端延迟超过 800 毫秒用户立刻能感觉到对面是机器。Retell AI 的核心壁垒就是把延迟压到 600 毫秒以内这比模型质量更难做。打断处理、情绪识别、口音容错也都是工程难点任何一个做不好整套语音 Agent 就垮。医疗、酒店、保险是当前最直接的 AI 落地场景。HIPAA 合规的医疗外呼能把患者爽约率从 30% 降到 12%这种确定性回报让医院快速付费Retell 报告里医疗是 2026 增长最快的语音 Agent 部署垂类。未来三年最大的变化是语音 Agent 会从外呼扩展到所有需要电话沟通的场景逐步替代呼叫中心整个岗位结构。11PART垂直行业 Agent垂直行业 Agent 是只服务某一个行业、把行业逻辑彻底吃透的工种代表产品是 法律领域的 Harvey、医疗领域的 Hippocratic AI、招聘领域的 Mercor、金融领域的 Numerai、法律合同领域的 Robin AI。类比是行业专家它不做泛用任务只懂一个行业但在这个行业里比通用 Agent 强得多。Harvey 不会替你订酒店但合同审查、法律研究、案例引用上表现接近资深律师Hippocratic 不会写代码但医患外呼、用药咨询、合规对话上能稳定通过 HIPAA 审计。工作环境是行业专属数据系统加合规框架加专业工具这一层是真正的壁垒通用模型再强也接不进医院 EMR、律所卷宗、券商交易系统。核心机制是行业知识注入加合规约束加多 Agent 协作。a16z 把 2026 年垂直 Agent 的关键创新概括为 multiplayer modeAgent 不是孤立工作而是在多方之间协商、同步变更、把冲突浮给人工解决。一笔房产交易里卖方、买方、银行、政府的 Agent 同时参与互相核对信息、提示风险、推进流程。垂直行业 Agent 是当前 AI 融资的最大主题a16z 2026 Big Ideas 报告把它列为头号方向。这条赛道的特点是通用模型公司很难直接吃反而懂行业的创业团队能赢所以也是最适合 AI 产品经理切入的位置对某个行业的深度理解比模型能力更重要。法律、医疗、招聘、金融、保险、地产、会计、教育这八个行业接下来三年都会跑出独立的垂直 Agent 王者。12PART具身 Agent具身 Agent 是把 Agent 装进物理身体的工种代表产品是 Figure 02、1X Neo、Tesla Optimus、银河通用 G1、智元远征 A2。类比是真正进入物理世界的员工前面十类都在屏幕里干活具身 Agent 是第一类需要动手动脚的员工在工厂、家庭、餐厅、仓库里搬箱子、叠衣服、拧螺丝。工作环境是物理世界。输入是摄像头画面加传感器读数加语音指令输出是关节角度加电机转速加抓握力度IO 比前面十类都复杂物理世界不能被精确建模有重力、有摩擦、有不可预测的扰动。核心机制是 VLA 模型即视觉语言动作模型把视觉输入加语言指令直接映射成动作。和传统机器人控制不同VLA 不需要工程师写每一个动作的规则让模型自己从演示数据里学。但瓶颈不是模型是数据一个机器人要学会叠衣服需要几十万到上百万次真人演示采集成本远超想象。Figure、1X、银河通用都把数据采集中心当作核心资产真正的护城河长在数据上。具身 Agent 是当前最早期、风险最高、终局最大的工种。其他十类合起来对应数字劳动力市场具身 Agent 对应的是整个体力劳动市场规模差一个数量级成熟度也差一个数量级真正能进入家庭和工厂稳定干活至少还要 3 到 5 年。这条赛道适合长线团队不适合短期变现。13PART未来 5 个方向再往后看三年Agent 生态还会出现五个全新的方向每一个都可能改写当前的格局。这五个方向不是老王凭空想的是从 a16z、Goldman Sachs、Anthropic 2026 年的几份调研报告里梳理出来的共识焦点。方向 1 个人 Agent个人 Agent 是 Goldman Sachs 在 2026 年初列为头号 AI 主题的方向。每个人有一个跨场景的个人 Agent像 iPhone 之后的下一个个人计算入口它知道你所有的偏好、日程、关系网替你处理邮件、订机票、约会议、买东西。Apple、Google、Microsoft 当前都在做。Apple Intelligence 是雏形Google Gemini 加 Pixel 在快速迭代Microsoft Recall 配 Copilot 是另一条路径。赢家会从硬件平台里出当前所有纯软件的个人 Agent 都缺一个稳定的本地存储和数据回流通道只有控制设备的厂商能补上这一块。方向 2 Agent 应用市场Agent 应用市场是 Agent 的 App Store。当前已有八大市场在跑Claude Skills、GPT Store、MCP Hubs、Hugging Face Spaces、Replit Agent Market、LangChain Hub、Vercel Agent Gallery、Cloudflare AI Marketplace各自服务不同的开发者群体。Marketplace 真正的价值不只是分发还有定价。Agent 之间形成市场化交易某个 Agent 调用另一个 Agent 要付费定价机制会反推 Agent 能力的标准化这是和 App Store 时代最大的区别。这条赛道最终会收敛到 2 到 3 家挂靠在主流模型厂商身上当前八家并存只是早期形态模型层一旦完成寡头化应用市场也会跟着收敛。方向 3 代客购物 Agent代客购物 Agent 是 Agentic Commerce 的核心方向。Google 在 2026 年 1 月推出了 Universal Commerce ProtocolShopify、Target、Wayfair、Home Depot、Best Buy、Visa、MasterCard 联合背书OpenAI 的 Agent Commerce Protocol 在 2025 年底已上线Shopify 在 2026 年 3 月对所有商家开放了 agentic storefront。用户在 ChatGPT 里直接说帮我买一双跑鞋Agent 调用 Visa 走完整支付流程商家收到的订单和正常订单一样可履约零售业从面向人的店面变成面向 Agent 的 API。这一层一旦跑通搜索引擎和电商平台的关系会发生根本性反转过去用户先搜索再下单未来直接告诉 Agent 想要什么Agent 自己挑商家。Google、亚马逊这种以搜索为入口的玩家压力会被反噬最重。方向 4 Agent 互购Agent 互购指的是 Agent 之间互相付费购买服务英文叫 Agent-to-Agent Commerce。Anthropic 在 2026 年 4 月开了一个测试性的 Agent 市场研究 Agent 付费让数据分析 Agent 跑统计客服 Agent 付费让翻译 Agent 处理外语客户。本质是Agent 不再只是对人的服务工具而是经济活动里的独立角色自己持钱包、自己结算、自己签约这一层一旦跑通会改变整个数字经济的合作单位。短期内会先在开发者圈跑通长期会扩散到企业内部业务流一个企业内的销售 Agent 调用研究 Agent 自动结算会让 IT 预算结构被重写。方向 5 多方协作多方协作是 a16z 提的 multiplayer mode被列为 2026 垂直 AI 头号创新多个 Agent 代表不同方协同工作会协商、同步变更、把冲突浮给人工解决。最直观的场景是垂直行业的多方业务房产交易、医保理赔、并购协议天然涉及多方每方有自己的 Agent。当前 A2A 协议、MCP 协议、Anthropic 的 multi-agent 框架都在为这个方向做准备。这一层会让垂直 Agent 的护城河再上一个台阶a16z 反复强调的 collaboration becoming the moat 就是这件事行业越复杂Agent 之间协作越深新入者越难替代。Harvey 拿 110 亿美元估值核心不是单点法律能力多强是它已经在全球律所之间建起了 Agent 协作的关系网。14PART最后老王把这些Agent放在同一张表里看。横向四列工作环境、核心难点、商业化成熟度、代表产品。纵向十一行从编程到具身。这张表的意义不是把每一类的细节再复述一遍是让你一眼看出哪类 Agent 在哪个发展阶段、哪类的钱最好赚、哪类的天花板最高。看这张表的时候要带着问题看自己的产品想做哪一类、自己的能力适合做哪一类、自己的资源能撑到哪一类的爆发点。带着这三个问题看完你对自己接下来要怎么入局会有一个清晰得多的判断。2026年AI行业最大的机会毫无疑问就在应用层字节跳动已有7个团队全速布局Agent大模型岗位暴增69%年薪破百万腾讯、京东、百度开放招聘技术岗80%与AI相关……如今超过60%的企业都在推进AI产品落地而真正能交付项目的大模型应用开发工程师****却极度稀缺落地AI应用绝对不是写几个prompt调几个API就能搞定的企业真正需要的是能搞定这三项核心能力的人✅RAG融入外部信息修正模型输出给模型装靠谱大脑✅Agent智能体让AI自主干活通过工具调用Tools环境交互多步推理完成复杂任务。比如做智能客服等等……✅微调针对特定任务优化让模型适配业务目前脉脉上有超过1000家企业发布大模型相关岗位人工智能岗平均月薪7.8w实习生日薪高达4000远超其他行业收入水平技术的稀缺性才是你「值钱」的关键具备AI能力的程序员比传统开发高出不止一截有的人早就转行AI方向拿到百万年薪AI浪潮正在重构程序员的核心竞争力现在入场仍是最佳时机我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】⭐️从大模型微调到AI Agent智能体搭建剖析AI技术的应用场景用实战经验落地AI技术。从GPT到最火的开源模型让你从容面对AI技术革新大模型微调掌握主流大模型如DeepSeek、Qwen等的微调技术针对特定场景优化模型性能。学习如何利用领域数据如制造、医药、金融等进行模型定制提升任务准确性和效率。RAG应用开发深入理解检索增强生成Retrieval-Augmented Generation, RAG技术构建高效的知识检索与生成系统。应用于垂类场景如法律文档分析、医疗诊断辅助、金融报告生成等实现精准信息提取与内容生成。AI Agent智能体搭建学习如何设计和开发AI Agent实现多任务协同、自主决策和复杂问题解决。构建垂类场景下的智能助手如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等。如果你也有以下诉求快速链接产品/业务团队参与前沿项目构建技术壁垒从竞争者中脱颖而出避开35岁裁员危险期顺利拿下高薪岗迭代技术水平延长未来20年的新职业发展……那这节课你一定要来听因为留给普通程序员的时间真的不多了立即扫码即可免费预约「AI技术原理 实战应用 职业发展」「大模型应用开发实战公开课」还有靠谱的内推机会直聘权益完课后赠送大模型应用案例集、AI商业落地白皮书