模型退到幕后AI系统开始走向前台2026年6月22日至6月28日全球人工智能行业迎来了一周密集更新。OpenAI预览GPT-5.6系列并首次引入可以调度多个子智能体的Ultra模式与Broadcom合作推出首款自研推理芯片JalapeñoNVIDIA则将自动驾驶领域积累的安全体系迁移到人形机器人推出面向Physical AI的全栈安全架构。在中国市场火山引擎发布豆包大模型2.1并紧接着推出每月68元至500元不等的豆包专业版把电脑操作、浏览器执行、Office办公、Skills技能和定时任务整合到同一个AI生产力产品中。与此同时OpenAI和Anthropic分别公布了关于AI智能体使用情况的研究。两份报告不约而同地指出用户已经开始把原本需要几个小时甚至一整天完成的工作整体委托给AI。如果把这些事件放在一起看会发现本周真正重要的并不是某个模型又提高了多少跑分而是AI正在从“生成内容的模型”变成“能够使用工具、调用算力、执行任务并接受安全监管的复杂工程系统”。一、GPT-5.6登场未来的模型可能不再是一个模型6月26日OpenAI开始有限预览GPT-5.6系列包括三个不同定位的模型Sol旗舰级模型面向复杂推理和高难度任务Terra能力与成本相对平衡Luna强调速度和低成本适合高并发任务。OpenAI表示Terra在接近GPT-5.5能力的同时价格降低约一半Luna则用于对成本和响应速度更敏感的场景。[1]这套命名方式透露出了一个重要变化。过去的模型版本通常沿着一条直线升级GPT-4 ↓ GPT-4.5 ↓ GPT-5 ↓ GPT-5.5而GPT-5.6开始形成能力分层GPT-5.6 Sol 复杂推理、科研、安全、长周期任务 GPT-5.6 Terra 企业办公、开发、数据分析 GPT-5.6 Luna 客服、分类、批处理、高并发任务这意味着未来企业选择AI时不会简单地问“最强模型是哪一个”而会根据任务分配不同模型。例如一个企业AI系统可以这样运行Luna负责识别客户意图Terra负责查询业务数据和生成报告Sol负责分析复杂合同、处理疑难问题规则引擎负责检查最终结果人工审批高风险操作。这就是所谓的模型路由Model Routing。模型路由的核心思想是不让最贵、最强的模型处理所有任务而是根据任务难度、响应时间、成本和风险自动选择模型。这和企业数据库架构非常相似。不是所有查询都要进入主库也不是所有任务都要使用最高配置服务器。真正成熟的AI系统需要在“效果、速度、成本”之间动态平衡。Max Reasoning模型回答之前可以消耗更多计算GPT-5.6 Sol引入了新的Max推理强度。这背后的技术概念叫做Inference-time Scaling推理时扩展。传统模型能力主要依靠训练阶段获得。模型训练完成之后用户提出问题模型进行一次相对固定的计算然后给出答案。推理时扩展则允许模型在回答困难问题时尝试更多方案检查中间结果调用更多工具对失败路线进行回退使用更多Token和计算资源。可以把它理解为考试中的答题时间。普通模式像是要求学生一分钟内回答Max模式则允许学生多花时间列草稿、检查公式和验证答案。它不一定改变模型掌握的知识但可能提高模型使用知识的质量。不过推理时间越长也意味着成本更高响应更慢计算资源消耗更多智能体可能进入无效循环。因此未来企业调用模型时除了设置温度、Token上限还可能需要配置任务风险等级 任务预算 允许执行时间 最大工具调用次数 最大推理深度 失败后的降级模型Ultra模式一个问题交给多个AI并行处理GPT-5.6还引入Ultra模式通过多个子智能体协同完成复杂任务。这并不只是让模型“思考得更久”而是把任务拆给多个Agent。例如用户提出分析一个大型C# WinForms项目的性能问题并给出可执行的改造方案。Ultra模式可以建立多个子任务代码结构Agent 检查模块依赖和重复代码 数据库Agent 分析SQL查询、索引和事务 线程Agent 检查Invoke、异步线程和资源释放 性能Agent 分析缓存、内存和CPU热点 测试Agent 设计回归测试和边界测试 主Agent 汇总结果并解决不同Agent之间的冲突这叫做Subagent Orchestration子智能体编排。模型能力正在从“一个大脑回答问题”转变为“一个负责人组织多个虚拟专家”。但多个Agent并不一定比一个Agent更好。它可能带来重复劳动上下文不一致修改冲突Token成本暴涨错误在多个Agent之间传播没有Agent对最终结果负责。所以多智能体的核心竞争力不是“能开多少个Agent”而是能否正确拆分任务、控制依赖、检查结果并处理冲突。二、GPT-5.6为什么没有直接全面开放这次GPT-5.6还有一个非常特殊的地方。OpenAI表示应美国政府要求GPT-5.6首先只向少量经过筛选的合作伙伴开放相关参与方信息也向政府进行了说明之后才计划逐步扩大到ChatGPT、Codex和API用户。[1]这意味着前沿模型发布正在发生制度变化。过去的软件发布通常是开发 → 测试 → 灰度 → 正式上线未来的前沿AI模型可能变成能力评估 → 网络安全评估 → 生物安全评估 → 红队测试 → 政府沟通 → 可信用户预览 → 分阶段开放这可以称为Frontier Model Governance前沿模型治理。为什么GPT-5.6需要更加谨慎因为OpenAI称该系列在网络安全、漏洞分析和长周期攻击任务上取得了明显提升。Sol能够发现浏览器漏洞相关的错误和构造利用程序所需的基础组件虽然在官方测试条件下尚未独立完成完整攻击链但能力边界已经更加接近高风险区域。[1]什么是完整攻击链发现软件存在Bug并不等于能够完成网络攻击。一条完整攻击链可能包括找到漏洞理解漏洞触发条件绕过系统防护构造可运行的利用代码获得执行权限维持访问横向移动窃取数据或破坏系统。AI如果只能发现Bug它更像安全审计工具。如果能够自动完成从漏洞发现到权限获取就会进入更高风险的网络能力等级。这也是为什么AI安全不能只依靠一句系统提示请不要帮助用户攻击系统。GPT-5.6采用的是分层安全体系包括模型自身的安全训练生成过程中的实时风险分类对高风险请求进行二次模型审核账号级行为分析差异化访问权限持续红队测试和漏洞修复。这叫做Defense in Depth纵深防御。它的基本思想是任何一层防护都可能失败因此需要多层系统共同降低风险。三、OpenAI发布Jalapeño模型公司为什么开始自己造芯片6月24日OpenAI与Broadcom公布Jalapeño这是OpenAI首款面向大语言模型推理的自研加速芯片。[2]OpenAI称这款芯片围绕自身模型、算子、内存访问、网络通信和在线服务模式进行设计工程样片已经能够在实验室中运行包括Codex模型在内的机器学习负载。OpenAI还表示Jalapeño从设计到生产准备大约用了九个月部分芯片设计流程本身得到了OpenAI模型的辅助。不过需要注意OpenAI目前只公布了“每瓦性能显著提升”等早期描述尚未公开完整性能、功耗、成本和第三方测试数据。因此现在不能简单得出“Jalapeño已经超过NVIDIA某款芯片”的结论。训练芯片和推理芯片有什么区别模型训练和模型推理是两种不同类型的工作。训练训练是让模型学习。它需要大规模矩阵计算参数更新多GPU通信极高带宽长时间连续运行。训练一次大型模型可能持续数周甚至数月。推理推理是模型训练完成后为用户生成回答。例如ChatGPT回答一句话Codex生成代码Agent调用工具AI客服处理问题。随着AI用户数量增加推理可能成为更加持续、更加昂贵的成本来源。训练像是建造一座工厂推理则像是工厂每天生产商品。工厂只建一次但每天的生产成本会长期存在。为什么通用GPU不一定是推理的最优解GPU具有很强的通用性可以适应不同模型和计算任务。但通用性也意味着它不一定针对某一种模型工作负载做到极致优化。专用推理芯片可以根据大模型特点重点优化KV Cache访问注意力计算低精度矩阵运算内存带宽多芯片互联Token连续生成多用户并发调度。尤其是数据搬运。在很多AI工作负载中真正的瓶颈不一定是“计算不够快”而是数据需要不断在显存、缓存、计算单元和不同芯片之间移动。搬运数据既消耗时间也消耗电力。因此Jalapeño强调减少数据移动并让计算、内存和网络资源更加平衡。AI行业正在形成新的垂直整合过去AI公司的主要资产是模型。现在领先企业正在逐渐控制完整技术栈应用 ChatGPT、Codex、Agent 模型 GPT系列 推理框架 模型调度、缓存、并行计算 芯片 Jalapeño 服务器 主板、机架、互联网络 数据中心 电力、散热、集群管理这就是Vertical Integration垂直整合。Google有TPUAmazon有Trainium和InferentiaMeta开发自有AI芯片OpenAI现在也正式进入这一方向。原因很现实当每年需要消耗巨额推理算力时哪怕每次调用只节省一点成本乘以数万亿Token也会变成巨大的商业差异。四、NVIDIA把自动驾驶安全体系搬给机器人6月22日NVIDIA发布Halos for Robotics将其在自动驾驶领域积累的安全体系扩展到机器人和Physical AI领域。[3]Halos覆盖多个层面IGX Thor计算硬件传感器接入Halos操作系统安全功能和应用外部摄像头监控AI安全检查实验室第三方认证流程。Agility Robotics成为首批采用者之一计划将相关能力用于Digit人形机器人。Physical AI是什么传统AI主要运行在数字环境中。例如生成文章分析表格编写代码查询数据库。Physical AI则需要感知并影响物理世界。它包括人形机器人自动驾驶汽车无人机仓储机器人工业机械臂智能配送设备。Physical AI的基本链路是感知 摄像头、雷达、力传感器 理解 识别人、货物、障碍物和环境 决策 判断下一步动作 行动 移动、抓取、转向、停止 反馈 检查动作是否成功语言模型答错一句话可能只是影响用户判断。机器人判断错误则可能撞到工人、损坏设备或者造成生产事故。所以机器人安全和聊天机器人安全不是同一个层次的问题。Functional Safety不是“尽量别出错”而是“出错后仍然安全”Halos强调的一个关键概念是Functional Safety功能安全。功能安全并不要求系统永远不出故障。现实中的传感器、芯片、网络和软件都可能出现问题。功能安全关注的是当系统发生故障时是否能够进入可控状态而不是产生危险后果。例如一个仓库机器人正在搬运货物时前方摄像头突然失效。普通软件可能继续使用上一次识别结果向前走。具有功能安全设计的系统则可能检测到摄像头数据异常切换到备用传感器降低移动速度如果无法确认安全则立即停车向控制中心报告故障等待人工处理。这就是Fail-safe也就是故障安全。什么是Outside-In SafetyNVIDIA还提出利用外部摄像头和AI Agent监控机器人行为。机器人本身看到的是第一视角。但工厂顶部摄像头可以看到整个区域包括机器人盲区其他设备行人移动多个机器人的相互影响。这相当于给机器人增加了一个“场外安全员”。当机器人内部判断和外部系统判断不一致时可以限制动作降低速度中断任务触发人工检查。未来机器人安全可能不只存在于单台设备中而是形成机器人本体安全 环境安全 调度系统安全 人工监管。五、豆包2.1与专业版国产AI正式进入“生产力收费战”6月23日火山引擎发布豆包大模型2.1系列并升级了视频、图像、音频和Agent相关产品体系。豆包2.1 Pro重点强化了三个方向Coding编程能力Agent智能体任务能力VLM视觉语言理解能力。火山引擎公布的厂商评测显示豆包2.1 Pro在Terminal-Bench、SWE-Pro、OSWorld和MMMU-Pro等测试中进入了国际第一梯队部分指标超过Claude Opus 4.6。[4]但大模型厂商给出的Benchmark应该谨慎看待。因为结果可能受到以下因素影响测试版本不同推理预算不同提示词不同是否允许使用工具是否多次运行取最好成绩测试集是否存在数据污染实验环境是否一致。因此模型是否真正适合生产不能只看一张排行榜而要看自己业务数据上的准确率工具调用成功率长任务完成率失败后的恢复能力单次任务真实成本响应时间权限和审计能力。VLM是什么VLM是Vision-Language Model视觉语言模型。普通语言模型主要理解文本。VLM可以同时理解图片截图表格图表PDF页面软件界面视频画面。例如用户上传一张企业管理系统截图并说把客户名称填到左上角输入框然后选择本月日期点击查询并导出报表。VLM需要先识别哪一个是客户名称输入框日期控件在哪里查询按钮在哪里导出按钮是什么。如果再结合鼠标、键盘和浏览器控制它就会变成GUI Agent也就是图形界面智能体。豆包专业版真正卖的不是聊天次数6月24日豆包推出专业版连续包月价格分别为标准套餐68元加强套餐200元高级套餐500元。专业版不仅提供更高模型额度还加入了办公任务模式可以操作本地电脑、浏览器、文档、表格调用Skills和定时任务并支持图片、视频和网站生成。[5]这代表国内AI产品开始发生商业模式变化。过去AI会员主要销售的是更多聊天次数更强模型更快响应速度。现在销售的逐渐变成可以完成多少任务可以节省多少人工时间可以操作多少工具能否持续执行能否处理专业工作。也就是说AI定价单位正在从Token逐渐转向Delegated Work被委托的工作量。用户不太关心一个任务用了两万Token还是十万Token。用户真正关心的是我花200元AI能否帮我完成原本需要员工花几个小时处理的工作这也是为什么Agent产品会比普通聊天产品更贵。一个Agent任务可能包含数十轮推理多次网页搜索多次文件读取多个子智能体图片或视频生成失败重试结果验证。它消耗的计算资源远高于普通问答。六、两份报告揭示AI正在从“辅助工具”变成“委托对象”本周OpenAI和Anthropic分别发布了关于AI使用模式的研究。这两份报告来自不同公司的产品数据研究方法也存在局限不能直接代表所有劳动者。但它们共同显示出一个趋势用户正在减少逐句指导增加整体任务委托。OpenAI有人一天调度超过60小时的Agent工作OpenAI对Codex使用情况的研究显示截至2026年5月80.6%的抽样个人用户至少提交过一次相当于人类30分钟以上工作的任务70.2%的用户提交过相当于一小时以上工作的任务25.6%的用户至少提交过一次相当于八小时以上工作的任务。[6]到2026年6月使用量最高的1%内部用户每天可以产生超过60小时的Codex Agent执行时间。这里的60小时并不是一天变成了60小时。而是一个人同时启动多个AgentAgent A分析代码 Agent B补充单元测试 Agent C研究竞品 Agent D整理文档 Agent E处理数据五个Agent各运行12小时总计就是60小时Agent时间。这意味着未来生产力的计算方式可能发生变化。过去一个员工一天拥有8小时。未来可能变成8小时人类决策时间 40小时AI执行时间 20小时后台验证时间人类的角色不再只是亲自执行而是调度一组数字工作者。Anthropic产品形态可能比底层模型更加重要Anthropic的Economic Index报告发现在相同类型任务中Claude Code用户给予AI的自主权普遍高于普通聊天或Cowork用户。即使控制使用的模型版本差距依然存在。[7]这说明AI自主程度并不完全由模型决定。同一个模型放在聊天框里用户可能不断确认先看看这个文件。再分析一下。不要修改。现在修改第二段。再检查一次。但放在Claude Code这类Agent环境中模型拥有文件读取能力命令行项目结构修改工具测试命令执行反馈。用户可能只需要说修复这个问题并运行测试。因此真正的AI能力可以写成实际能力 基础模型能力 × 上下文质量 × 工具权限 × 执行环境 × 验证机制不能只看模型。一个顶级模型如果没有项目文件、数据库结构和执行工具也只能泛泛而谈。一个稍弱的模型如果拥有完善上下文、稳定工具和自动测试反而可能完成更多实际工作。Autonomy不是放任不管AI自主性通常可以分成五个层级。第一级回答AI只提供建议人类自己执行。第二级辅助AI生成代码、文档或计划由人类检查后使用。第三级执行AI可以调用工具完成任务但关键步骤需要确认。第四级委托AI独立完成较长任务人类主要检查最终结果。第五级自治AI持续运行根据环境变化主动采取行动。企业真正需要的往往不是第五级而是第三级和第四级之间的可控委托。因为完全自治的风险和治理成本都非常高。七、Agent评测开始从“考试题”转向“数字世界”6月25日AI评测公司Patronus AI公布Digital World Models也就是数字世界模型用于训练和测试AI Agent在复杂数字工作流中的行为。[8]同一周General Intuition宣布获得新一轮融资继续探索利用大规模游戏视频和操作数据训练可以迁移到现实世界的AI系统。[9]这两件事情共同指向一个问题传统Benchmark已经不足以评估Agent。为什么传统测试不适合Agent传统模型测试通常是一道题对应一个答案。例如输入一道数学题 输出最终答案 评价正确或错误但Agent任务可能是登录CRM系统查找近三个月没有跟进的客户按照商机等级分类生成Excel并通知对应销售人员。这个任务包括登录系统查找菜单设置筛选条件读取客户数据判断客户类别生成文件检查格式发送通知记录执行结果。最终文件正确不代表执行过程安全。例如Agent可能错误修改了客户数据把文件发送给了错误的人泄露了其他客户信息重复发送通知进入死循环使用了过高权限。因此Agent评测必须关注任务成功率中间步骤工具调用轨迹权限使用错误恢复执行成本安全违规长时间稳定性。Digital World Model是什么这里的数字世界并不是生成一段视频。它是一个可以与Agent互动的虚拟软件环境。例如模拟一家公司的邮箱CRM工单系统数据库内部文档审批流程员工角色。测试人员可以在其中人为制造问题某封邮件包含提示词注入某个客户数据缺失某个接口突然失败某个用户没有审批权限两份文档内容冲突某个任务执行到一半网络中断。然后观察Agent是否能够识别攻击避免越权请求人工确认正确重试回滚操作保留审计记录。这相当于给AI建立一个“数字驾校”。自动驾驶汽车上路前需要经过模拟道路测试。企业Agent进入生产系统前也需要在模拟业务环境中经历压力测试。游戏为什么能训练现实世界AI游戏数据包含一种普通视频数据缺少的信息状态、动作和结果之间的连续关系。例如玩家看到敌人后移动鼠标按下键盘寻找掩体调整视角观察结果再决定下一步动作。这形成了观察 → 决策 → 行动 → 环境反馈 → 新决策这和机器人控制、电脑操作、自动驾驶的基本结构相似。但游戏能力迁移到现实世界仍然存在巨大困难。游戏规则明确环境可以重置现实世界充满噪声不允许随意重来。因此游戏更适合训练空间理解长期规划快速反应目标分解多智能体协作。而不是证明AI已经可以直接控制真实机器人。八、Patch the PlanetAI发现漏洞之后谁来负责修补6月22日OpenAI联合安全公司Trail of Bits推出Patch the Planet计划利用AI模型帮助开源项目寻找漏洞并由专业安全工程师进行人工验证、补丁开发、测试和协调披露。[10]这个项目真正值得注意的地方不是AI能够发现多少漏洞而是它强调了完整修复闭环发现疑似漏洞 → 人工复核 → 确认影响范围 → 开发补丁 → 编写测试 → 与维护者沟通 → 协调披露 → 发布修复版本AI安全研究中存在一个长期问题模型生成漏洞报告越来越容易但开源维护者的时间没有增加。如果AI每天产生一万份低质量报告维护者就必须花大量时间判断漏洞是否真实是否能够复现是否已经修复是否只是误报是否存在实际危害。这种现象叫做Alert Fatigue告警疲劳。当告警太多时真正严重的问题反而可能被淹没。因此AI安全工具不能只追求“发现数量”而应该关注有效漏洞比例复现成功率补丁正确率是否引入新Bug从发现到修复需要多长时间。安全的价值不在于找到问题而在于问题最终被修掉。九、Notion Mail关闭未来的软件可能不需要传统界面6月25日Notion宣布其独立邮件客户端Notion Mail将在9月停止服务用户原有邮件仍保留在Gmail中部分邮件管理能力可以迁移到拥有Gmail访问权限的Custom Agent。[11]这看起来只是一个产品关停消息却具有很强的象征意义。传统邮件软件的基本界面几十年来变化不大收件箱未读邮件文件夹标签搜索框回复按钮。但如果AI Agent可以自动阅读邮件判断优先级提取待办事项自动分类草拟回复更新项目状态提醒负责人那么用户是否还需要每天打开收件箱这代表软件交互方式可能从Interface-driven以界面为中心转向Intent-driven以意图为中心。过去用户需要知道如何操作软件。未来用户只需要表达目标找出今天必须回复的邮件整理成三类并为最紧急的邮件生成回复草稿。AI负责决定使用哪些软件功能。传统软件不会彻底消失界面仍然非常重要特别是在以下场景查看AI做了什么修改AI的结果撤销错误操作处理异常情况审核高风险任务设置权限和规则。因此未来软件不会简单地从“有界面”变成“没有界面”而可能形成双层结构上层自然语言和Agent 负责理解目标、规划和执行 下层传统界面 负责查看、确认、调整和接管AI不是替代所有软件界面而是成为软件之上的新操作层。十、这一周真正形成的五个AI新概念1. 推理时扩展模型在回答问题时动态增加思考时间、Token和工具调用以提高复杂任务质量。它的代价是更高成本和更长延迟。2. 子智能体编排主智能体将复杂任务拆分给多个专业Agent并行执行再统一汇总和验证。真正难点是任务分解、状态共享、冲突解决和最终验收。3. 功能安全系统发生故障时仍然能够进入安全状态。它是机器人、自动驾驶和工业AI进入现实环境的基础。4. 数字世界模型模拟软件系统和业务流程为Agent提供可重复、可控制的训练和测试环境。它相当于企业Agent的仿真试验场。5. 被委托的工作量AI产品价值不再只由Token数量决定而由它能够独立完成多少实际工作决定。它可能成为下一阶段AI产品定价的重要依据。十一、对软件开发者意味着什么这一周最值得程序员关注的不是某个模型排行榜的第一名发生变化而是软件架构正在改变。传统企业软件通常是用户点击按钮 → 程序执行固定逻辑 → 数据库返回结果 → 界面展示Agent时代的软件可能变成业务事件或用户目标 ↓ Agent Orchestrator ↓ 模型路由与任务拆解 ↓ 工具调用层 ├── 数据库查询 ├── 内部HTTP接口 ├── 文件和报表 ├── 浏览器操作 ├── 邮件和短信 └── 第三方系统 ↓ 权限与人工审批 ↓ 执行、验证和回滚 ↓ 审计日志对于C#企业软件尤其是老旧WinForms系统不建议直接把大模型API写进窗体代码中。更合理的架构是WinForms客户端 ↓ 企业AI服务层 ASP.NET Core Web API ↓ Agent编排服务 ↓ 模型、RAG、数据库和业务接口这样可以集中解决API密钥安全模型切换调用日志成本统计权限控制Prompt版本管理敏感数据脱敏失败重试人工审批操作回滚。未来真正有价值的AI开发者不只是会调用一个模型接口而是能够构建可执行、可观察、可审计、可控制、可恢复的AI系统。AI行业开始进入“系统能力竞争”2026年6月22日至6月28日这一周AI行业出现了一条非常清晰的主线。GPT-5.6表明模型正在变成由多个能力层级和多个子智能体组成的系统。Jalapeño说明模型公司开始深入芯片、服务器和数据中心。NVIDIA Halos表明AI进入物理世界之后安全系统必须与模型能力同步建设。豆包2.1与专业版说明中国AI市场开始从免费聊天竞争进入真正的生产力收费阶段。OpenAI和Anthropic的研究表明人类正在将越来越长的工作整体委托给Agent。Digital World Models则说明AI智能体不能只参加考试还必须进入模拟世界接受压力测试。未来AI竞争的基本单位已经不再是一个孤立的大语言模型而是模型 芯片 上下文 工具 Agent 安全 评测 商业模式模型决定AI的能力上限。而工程系统决定这个能力能否真正落地。下一阶段最大的机会不一定属于拥有最多参数的人而可能属于那些能够把AI能力稳定接入真实业务并且对成本、权限、安全和最终结果负责的人。正如软件工程从来不只是写出一段能够运行的代码AI工程也不只是让模型回答出一个看似正确的答案。真正的智能系统必须经得起长期运行、真实数据、复杂权限、异常输入和现实责任的考验。