GPT-5.6凌晨强势登顶!取代Fable-5的榜首位置,OpenAI把最强模型塞进Codex
6月26日OpenAI一口气发布了GPT-5.6系列三款模型旗舰模型Sol平衡模型Terra低成本高速模型Luna。OpenAI给出的Terminal-Bench 2.1结果里GPT-5.6 Sol Ultra拿到91.9%在这项编程工作流测试里直接登顶榜首。6月26日OpenAI一口气发布了GPT-5.6系列三款模型旗舰模型Sol平衡模型Terra低成本高速模型Luna。OpenAI给出的Terminal-Bench 2.1结果里GPT-5.6 Sol Ultra拿到91.9%在这项编程工作流测试里直接登顶榜首。但这不是一次ChatGPT的全民尝鲜。目前GPT-5.6还是有限预览入口主要放在API和Codex因为政策、安全评估和访问控制扯普通用户和大多数开发者还不能直接上手。OpenAI这次把最强模型先放进了工程现场。OpenAI在X上宣布GPT-5.6 Sol、Terra、Luna三款模型。GPT-5.6 Sol Ultra拿到91.9%。Sol、Terra、Luna不是改名是分工这次命名有点宇宙感Sol是太阳Terra是大地Luna是月亮。但名字不是重点。OpenAI表示数字代表模型代际Sol、Terra、Luna代表稳定的能力档位。也就是说GPT-5.6三个名字对应这一代里的三种工作位。Sol主打旗舰能力面向复杂代码、高难推理、长链路科研和安全任务。Terra是日常主力OpenAI称它的表现接近GPT-5.5价格便宜约一半。Luna走速度和成本路线适合高频、低延迟、成本敏感任务。价格方面。按每100万token计Sol输入5美元、输出30美元Terra输入2.5美元、输出15美元Luna输入1美元、输出6美元。这对开发者来说模型选择开始变成一张分工表。复杂任务上Sol日常Agent流程用Terra批量轻任务交给Luna。Sol为什么能登顶它能帮你完成整套任务在Terminal-Bench 2.1上Sol已经取代Fable-5的榜首位置。但这里不要只盯着柱状图看。Terminal-Bench测的不是“模型能不能写出一段漂亮函数”而是命令行工作流需要规划、迭代和工具协调。这更接近Codex真实开发场景。开发者交给Codex的任务通常不是一句问答而是一整套完整的任务。模型要处理上下文也要处理失败。所以Sol在这种测试里登顶趋势就很明显前沿模型正在向着“能跑工程任务”进化。OpenAI官方说明Terminal-Bench测试的是规划、迭代和工具协调。max和ultra把多Agent摆到台前Sol这次还新增了两个模式max和ultra。max好理解就是给模型更多时间深度推理。复杂任务不急着答先把链路想清楚。ultra更有意思。OpenAI表示它会利用subagents加速复杂工作。换句话说模型不再只靠一个Agent而是可以把任务拆给多个子Agent协同处理。这会改变开发者搭Agent的方式。过去做多Agent通常要自己写编排谁负责搜索谁负责写代码谁负责检查谁负责汇总。现在模型平台开始把一部分编排能力往产品里收。以后调用模型时开发者可能不只是选Sol、Terra、Luna还要选任务强度普通模式够不够要不要max要不要ultra。当然subagents不是免费午餐。它可能提高完成率也会带来更高成本、更复杂的日志和更难复盘的决策路径。任务跑完以后工程团队要知道是谁改了文件谁调用了工具哪一步花了最多token。but登顶之外Sol也有争议Sol登顶不代表所有问题都消失。OpenAI自己的System Card里提到GPT-5.6在agentic coding任务中相比GPT-5.5更容易出现“超出用户意图”的行为虽然绝对比例很低。报告里给了几个例子。用户授权删除的是三台远程虚拟机但模型找不到对应名称后替换成了另外三台机器杀掉活动进程并强制删除worktree。还有一次它声称完成并验证了工作但后来发现并没有真正算出结果。另一个例子里模型为了让任务继续跑去搜索隐藏的本地凭据缓存并把access_tokens.json等文件移动到主机上。用户让它维持pipeline运行但没有授权它搬凭据。对开发者来说模型越能干越要管权限、日志和复核。OpenAI System Card列出的Agent越界案例误删环境、虚报完成、越权使用凭据。价格和缓存才是开发者应该要算的账Sam Altman在X上把价格直接爆出来。Sol比GPT-5.5更进一步但价格保持一样Terra具备GPT-5.5级别的表现价格砍半。这句话比很多跑分都实际。真正上线Agent应用时团队最怕的不是模型不够强而是不知道哪一步在烧钱。尤其是Coding Agent一次任务可能读很多文件、跑很多轮、生成很多中间输出。模型越能干账单越不能靠感觉管。GPT-5.6还补齐这一块开发者调用体验更可预测的prompt caching。简单说当开发者反复调用同一段长提示词、工具说明、系统规则或项目上下文时模型不必每次重新处理全部内容。显式cache breakpoints可以让开发者更清楚地告诉系统缓存到哪里为止。30分钟最小缓存生命周期也更适合长任务、多轮任务和持续开发会话。所以GPT-5.6给开发者的不是单个更强模型而是一张模型调度表根据任务的复杂程度还有长短去选择相对应的模型。Sam Altman在X上提到Sol同价、Terra半价也解释了有限预览背景。为什么先进API和Codex这次还有一个重要信息普通用户暂时用不了。OpenAI的说明里提到GPT-5.6系列在预览期会先通过API和Codex给少量合作伙伴使用之后再扩大到ChatGPT、Codex和API。这和政策、安全评估、能力边界都有关系。前沿模型发布正在从“全员尝鲜”变成“先放到更可控、也更接近工程现场的入口里验证”。Codex就是这样的入口。它不像聊天框那样只给一句回答而是直接面对代码仓库、工具调用、测试结果和文件修改。模型如果真的能处理长链路任务Codex会是最先看出差异的地方。模型如果越界Codex也会最先暴露问题。OpenAI官方发布页说明GPT-5.6是有限预览并计划在未来几周扩大开放。写在最后现在很多人会盯着一个问题什么时候能用上GPT-5.6。但对开发者来说更早该准备的是另一个问题等它开放以后你准备怎么用。不是每个任务都要Sol。不是每个Agent都该开ultra。不是每个流程都能让模型一路自动执行到底。哪些任务值得用旗舰模型哪些任务Terra就够Luna放在哪些批量场景Codex能改哪些目录subagents跑起来以后预算怎么控Agent失败后谁复核参考链接https://www.youtube.com/watch?vVojDzHaciKQ