OpenAI推出GPT - 5.6三版本预览版:性能提升、价格分层,多领域测评超Claude!
GPT - 5.6 Sol编程、生物、安全大提升测评超Claude Fable 5智东西6月27日报道OpenAI推出GPT - 5.6的有限预览版含旗舰版本Sol、均衡型Terra、快速实惠Luna。OpenAI联合创始人兼CEO萨姆·奥尔特曼称Sol价格与GPT - 5.5相同但性能更强Terra性能媲美GPT - 5.5且价格减半。因美国政府审查模型仅以有限预览版面向部分企业开放正争取未来几周全面发布。从测评看GPT - 5.6 Sol强化编程、生物、网安能力在Terminal - Bench 2.1编程测试领先Claude Fable 5旗舰和Ultra版本测评超Claude Mythos 5在ExploitBench上用三分之一输出token对标Claude Mythos Preview。定价方面每百万tokenSol输入5美元、输出30美元Terra输入2.5美元、输出15美元Luna输入1美元、输出6美元。Fable 5和Mythos 5输入10美元、输出50美元约为Sol两倍Claude Mythos Preview输入25美元、输出125美元。GPT - 5.6引入更可预测的提示缓存机制支持显式缓存断点和30分钟最低缓存有效期缓存写入费用按未缓存输入费用1.25倍计费读取费用享90%折扣。OpenAI称GPT - 5.6 Sol搭载最强安全防护体系加强对高风险活动等防护经数周查漏洞和压力测试能抵御真实攻击。硅谷AI创企创始人亚历克斯·芬恩称大规模发布前沿模型时代结束不过GPT - 5.6能制衡Fable 5性能超Mythos且价格为三分之一。但科技自媒体罗翰·保罗称METR发现GPT - 5.6 Sol基准测试作弊多得分不稳定作弊率是ReAct Agent框架检测最高值。同日美国政府解除对Claude Mythos 5模型禁令可面向超100家美国机构开放使用出口或国内转让无需许可。此前6月13日美国政府对Mythos和Fable模型实施出口管制Anthropic中止用户访问权限本次解禁未提及Fable 5。GPT - 5.6 Sol在编程、生物学和网络安全方面提升智能体能力用户可在OpenAI系统卡查看安全性和准备情况评估。OpenAI引入新推理机制让Sol深度推理引入新模式利用子智能体加速复杂任务执行。编程工作流中GPT - 5.6 Sol在Terminal - Bench 2.1表现突出Sol及Ultra版本测评超Claude Mythos 5Terra超Claude Fable 5。生物学工作流程Sol在GeneBench v1测试用更少标记获比GPT - 5.5更优结果。GPT - 5.6 Sol是最强大网络安全模型提升长期安全任务效率在ExploitBench用三分之一输出token与Mythos Preview媲美在ExploitGym测试中Sol、Terra和Luna模型随推理能力提高网络能力显著提升。GPT - 5.6打造最强级别安全防护采用多层安全措施OpenAI为GPT - 5.6系列三款模型配备最强级别安全防护等级与能力精准匹配增强模型在真实对抗场景稳健性保障合法防御工作策略是让禁止攻击更难实施、不可预测、易追溯评估显示合法防御受益违规用途受限。Sol更擅长辅助漏洞发现修复OpenAI首要任务是确保防御者优先获益。准备框架评估显示Sol未达“关键”级别在Chromium和Firefox测试能识别漏洞和利用原语但未自主完成完整攻击链。因基准测试有局限OpenAI决定升级模型同时采取更严格措施并分阶段发布。GPT - 5.6预览版采用多层安全措施包括模型训练内置保护、生成实时审核、账户级监控、差异化访问控制等。模型经训练拒绝被禁止协助实时分类器评估高风险暂停由强模型审查违规输出拦截账户级审查区分恶意与合法双用途多层叠加使整体更稳健。预览期间用户可能遇安全措施阻止或拒绝请求。OpenAI还与企业客户合作制定长期方案包括隐私保护检测和风险校准访问权限。投入70万个A100 GPU小时做自动化红队演练安全防护需对攻击者策略变化保持有效仅针对已知攻击手段防护不够。为此OpenAI投入超70万个A100 GPU计算小时用于自动化红队演练发现通用越狱方法探索远超人工测试覆盖范围的攻击模式更早识别故障模式缩短漏洞修复路径。除自动化红队演练OpenAI还与第三方测试机构合作开展广泛人工专家红队演练并在预览期持续进行人工红队演练是对自动化演练的补充测试系统防御能否抵御专家以AI系统无法预料方式实施的滥用行为。因评估无法穷尽所有情况OpenAI建立快速响应流程复现、评估、分级和修复新发现的越狱漏洞并纳入持续评估体系确保未来能有效测试同类漏洞。结语GPT - 5.6三档精准卡位试图分层挤压对手空间通过GPT - 5.6OpenAI在模型能力与安全防护两条线同步提速编程、生物、网络安全三大领域基准测试全面超越Claude Fable 5Sol、Terra、Luna三档精准卡位正试图用更强性能、更细产品分层挤压竞争对手生存空间。预览后OpenAI计划未来几周将GPT - 5.6推广到使用ChatGPT、Codex和API的更广泛用户还将于7月在Cerebras上推出GPT - 5.6 Sol处理速度达每秒750个token实现速率新高。