超越Claude Mythos 5,OpenAI发布GPT-5.6
OpenAI发布了GPT-5.6系列。GPT-5.6家族分Sol、Terra、Luna三个档位。旗舰款GPT-5.6 Sol Ultra在TerminalBench 2.1基准上拿到91.9%把至今未解禁的Claude Mythos 5甩开3.9个百分点。发布时间刚好在美国政府介入AI监管的非常时期如此强的模型毫无意外如Claude Mythos 5一样被关进笼子里。因此目前该系列模型普通用户均无法使用。太阳Sol、地球Terra与月亮LunaGPT-5.6换了套命名规则。Sol、Terra、Luna是三个固定能力档位。Sol是旗舰Terra性能跟GPT-5.5相当价格砍半对应中端调用密集型场景Luna走低价位高吞吐路线覆盖日常大批量调用。GPT-5.6还引入了更可预测的prompt缓存机制。开发者可以显式设置缓存断点缓存至少保留30分钟。缓存写入按1.25倍未缓存输入价计费缓存读取仍享受90%的输入折扣。新机制让长上下文、多轮调用场景的token成本更可控配合显式断点缓存命中率和复用周期都更可预期长对话、代码库问答、文档库检索等场景的边际成本能降一个量级。推理侧也加了新东西。GPT-5.6带来max reasoning effort档位让Sol在复杂任务上多花时间想清楚同时引入ultra模式通过subagent子智能体协作把单agent干不了的活拆开加速。两项配置是Sol Ultra拿到高分的关键开关。硬件方面。OpenAI计划7月Sol会上线晶圆级芯片Cerebras最高跑到每秒750 token初期面向部分客户开放。性能拉开差距在最新Terminal‑Bench 2.1基准评估AI智能体在真实命令行环境下端到端执行能力的基准上GPT-5.6 Sol Ultra拿下91.9%全球第一。在GeneBench v1长程基因组与定量生物学分析基准上比GPT-5.5更强token用量更少。GPT-5.6 Sol在网络安全方面也有了巨大提升。在ExploitBench基准上GPT-5.6 Sol用约三分之一的输出token就能跟Mythos Preview打成平手。由加州大学伯克利分校联合OpenAI和其他前沿实验室共同搭建专门评估网络攻防能力的ExploitGym基准上。GPT-5.6 Sol、Terra和Luna模型都显示出随着推理深度提升的显著性能提升。分层防线与有限预览OpenAI的安全堆栈分了好几层。每一层各自补位单层失效时其他层还能补上。模型层是第一道关。GPT-5.6经过训练遇到禁止类网络协助请求直接拒绝包括伪装意图和越狱尝试。实时分类器是第二道关。生成过程中针对网络和生物安全的滥用分类器实时评估输出。遇到高风险情况生成会暂停调用更大的推理模型审一遍上下文。判定为不允许的内容在送到用户之前就被拦下避免有害输出落地。被标记的活动会触发账号级别的复审跨会话看整体行为模式。在双用途场景里同样的技术名词在攻防两边都可能出现而单看一条对话容易误判跨会话视角能更准确区分长期恶意行为和正常的安全研究。也就是慢慢诱导模型输出不安全内容更难了。不同客户、不同用户、不同工作负载对应不同的访问权限敏感能力默认不开放按风险等级授权。OpenAI还在跟企业客户合作更长期的方案包括隐私保护的检测机制、客户自管理的安全控件、按客户风险等级校准的访问策略让大客户能在合规框架内拿到所需能力。红队测试投入很大。OpenAI用了超过70万A100等效GPU小时做自动化红队测试专门找universal jailbreak通用越狱也就是能跨多种提示和场景生效的攻击。自动化之外还配合第三方人工红队测试由创意专家尝试找出系统意料之外的滥用方式。人工测试能补充自动化覆盖不到的盲区尤其是涉及社会工程、上下文包装、跨步骤诱导的复杂攻击。OpenAI还有一套快速响应流程对新发现的越狱复现、评估、定级、修复再加入回归测试集下次同类型攻击就不再有效。OpenAI在发布前向美国政府做了预沟通按对方要求先把模型交给一组名单已通报政府的小范围伙伴使用再考虑更广泛发布。最先进的智能开始变成了“密室里的神谕”普通人的相对能力会断崖式下跌形成“技术种姓”鸿沟吗参考资料https://openai.com/index/previewing-gpt-5-6-sol/https://x.com/OpenAI/status/2070555272230384038