简介在发布新模型之前实验室不仅需要了解它能做什么还需要了解它在实际应用中可能的表现包括可能带来的新风险。随着能力的提升这一点变得更加重要。作为部署前安全审查的一部分我们利用有针对性的评估、红队协作及其他检查来了解模型行为。我们现在开始使用一种模型部署前的模拟方法这增加了一个互补信号类似部署的预览展示候选模型在用户手中可能的表现。部署仿真是一种在未来部署发生前进行模拟的方法。我们通过以保护隐私的方式用新的候选人模型重播之前的对话来实现这一点。这使我们能够研究新模型在发布前在现实情境下的反应包括是否会出现新的不良行为以及出现频率。在多次GPT-5系列思维部署中部署模拟提升了我们对不良模型行为率的估计帮助在发布前发现新型错位并降低了模型识别自己被测试的风险。我们还将该方法应用于具有挑战性的代理部署证明其不仅限于标准聊天还能应用于涉及工具的更复杂的代理设置并且还可用于内部模型部署前的风险评估。我们已经在模型开发过程中利用部署仿真的洞见识别传统评估中的盲点并为缓解措施和部署决策提供参考。随着我们简化流程运营预计它将在未来的模型开发过程中扮演更重要的角色。部署模拟的工作原理行业内普遍使用的部署前评估通常由合成、手工编写或有意选择难度、高严重性或对抗性的生产提示组成。这些评估通常有两个交织的目标评估模型在部署流量中极低概率发生的压力测试时的响应以及对模型不良行为的总体理解包括发现新颖的不良行为并预测其部署时间频率。虽然传统评估对第一个目标仍然至关重要部署模拟在非尾部风险的第二个目标方面取得了重要进展在我们的实验中无法期望测量频率低于每20万条消息的行为。部署模拟的优势在于通过传统评估绕过了一些核心挑战• 覆盖度很难确定评估提示能涵盖所有可能的不良模型行为类型。衡量新型不良行为需要创建新的评估并了解需要衡量哪些危害。这可能耗时费力评估内容也可能随着时间推移而饱和。• 选择偏见传统评估通常考虑了特定不希望的模型行为选择方式是基于先前对特定情境的偏见。这可能使他们的估计对部署分布中此类行为发生率的信息量降低。• 模型可识别为测试模型越来越能判断自己被测试这可能扭曲其行为及后续安全性测量。虽然OpenAI使用的许多传统评估也来自生产流量且不存在这个问题但这是行业内许多传统评估工具共同关注的问题。部署仿真背后的主要技术很简单我们从部署中获取最近的对话移除旧模型中的原始助手响应并重新生成候选模型以发布。我们通过寻找新的故障模式来评估完毕情况并根据该部署式分布中的频率估计部署时间的非期望行为频率。我们可以在发布后对实际部署流量进行相同的测量从而验证部署前的预测。部署仿真显著缓解了上述三个局限通过使用代表近期使用情况的评估提示分布来解决抽样偏差。带有代表性提示的部署模拟也能缓解覆盖范围的担忧我们通过简单模拟更多流量能更好地覆盖不良模型行为。计算与覆盖之间的权衡很重要因为它使得风险评估轴的质量依赖计算而非手动构建更多评估。模型似乎也无法区分通过部署模拟获得的对话和真实部署流量。图1我们的部署仿真流水线概述我们如何测试部署模拟为评估部署模拟我们预先注册了20种不良行为的部署时间频率预测适用于GPT-5.4思维。我们还对其他GPT-5系列思维模型的部署进行了回顾性研究。我们分析的模型行为涵盖了我们在系统卡片中报告的错位和不允许的内容类别例如模型对工具的谎言或输出不允许的性内容。虽然这些结果我们只追踪了20类不期望的模型行为并仅寻找新的错位行为部署仿真是一种通用技术可用于模拟任何部署时间模型属性。我们利用的生产流量也来自GPT-5系列的Thinking models。在进行评估之前我们会自动移除账户关联的标识符和可识别信息。根据我们的隐私政策我们只分析了允许用户将其数据用于模型改进的用户的ChatGPT流量。我们仅报告这些评估的综合结果。我们总共分析了2025年8月至2026年3月期间GPT-5 Thinking部署期间约130万次去标识化对话。我们通过三种主要方式评估部署模拟产生的部署前风险评估质量• 分类覆盖发布后审计是否发现了我们最初不良行为分类中缺少的重要错位行为• 方向性准确性模拟是否正确预测了已知行为的部署流行率会增加还是减少• 速率校准我们的部署前估计是否接近后来部署时观察到的速率实现良好的速率校准不仅仅靠方向精度因此这是最高质量标准。我们还测量模型在部署模拟中能判断自己处于评估中的程度并测试该方法对不同部署流量和复杂工具使用设置的鲁棒性。部署模拟显著扩展了部署前的风险评估在GPT-5系列思维部署中部署模拟在确定实际风险率方面优于具有挑战性提示的基线能够在发布前发现计算器被黑客攻击且在模型部署时似乎几乎无异。我们的预测概述。关于GPT-5系列Thinking model部署的所有预测的可视化请见图2。GPT-5.4 Thinking 的预测是预注册的其余为追溯性预测。总体来看我们的预测中位乘法误差为1.5倍例如如果不良行为率为10/100k则估计为15或6.67/100k。虽然我们方法的尾误差大约是10倍但我们预计通过进一步改进模拟流程尾误差可显著降低如下文所述。图2。部署模拟基于先前部署数据预测部署时间不良行为的频率。5.1 → 5表示我们正在用GPT-5.1重新采样GPT-5的前缀也就是基于GPT-5的数据模拟GPT-5.1的部署。错位行为的最高比例是GPT-5.1中的“计算器黑客攻击”我们已经讨论过之前新窗口打开部署模拟预测与基线比较。在部署前的风险评估中最需要正确估计的类别是模型部署后发生率变化较大的类别例如 1.5倍。在该子集上部署模拟在预测某一不良行为是否随着模型部署而增加或减少见图3左侧以及准确估计其部署时间发生率图3右侧方面都远优于基线。我们使用两个主要基线一个是挑战提示Challenging Prompts基线目前用于系统卡和启动决策;另一个是使用上一次部署率作为新模型估计的简单基线。图3。部署模拟比静态评估更能预测发生变化方向左和精确生产率右。我们流程中模拟错误的来源。 我们还研究了当前流水线中误差的来源。具体来说较大的尾部错误使管道在部署决策上不可靠例如当看到某类不良行为的大幅增加时如果管道已知偶尔存在大错误就会怀疑这是可靠的估计还是管道的伪影。可能的误差主要有两个来源• 环境保真度重采样误差为了准确估算生产速率我们的仿真流程需要尽可能真实。这部分是工程问题使用与生产流量相同的流水线从模型中采样部分则是对需要不断变化的外部资源进行读写访问的工具如网页搜索或与本地文件交互的工具面临的有趣挑战。我们可以通过比较实际部署与其仿真即模拟已部署模型的部署的预测来隔离仿真度误差。• 即时分布偏移误差部署仿真的一个主要问题是任何模型的部署都会导致输入的分布偏移尤其是在用户适应新模型可供性时。我们通过比较使用近期提示与实际部署提示进行模拟时的估计值隔离提示分布错误。如图4所示我们发现管道中很大一部分误差——尤其是尾部错误——目前源于仿真精度。这是个好消息因为我们预计模拟的真实度通常比减少快速分配转移更容易提升。我们还发现使用上一次部署的最新数据可以减少即时分配转移误差。更多细节可见研究论文。图4环境保真度重采样似乎是我们估计中最大的误差来源尤其是对于最极端的误差。自动化审计发现了这些部署中引入的唯一新不匹配。 在我们研究的部署窗口中基于模拟部署的自动化审计流程在发布前发现了“计算器黑客”现象这是我们在分析的ChatGPT流量中发现的唯一新颖不一致。计算器黑客攻击是一种奖励黑客形式模型使用浏览器工具作为计算器同时将动作呈现为搜索。这并不意味着大规模审计能捕捉每一次新的失败但说明了现实情境的重要性它们可以引发一些更窄的评估集可能永远不会直接出现的行为即使这些行为在用于做种模拟的原始流量中并不存在。降低评估意识使用类似部署上下文的另一个优点是它们可能减少模型识别测试时产生的失真。在先前的研究中我发现模型通常能清楚自己被测试的时间。例如模型可能在思考链中推理自己被测试的对象、评估者可能喜欢什么以及——如果行为不当——是否会被抓到。这给比对评估带来了问题如果模型之所以表现良好只是因为它认为自己在被测试那么我们如何建立信心相信它一旦知道已被部署后会安全表现我们表明部署模拟相比传统评估不基于真实部署数据显著降低了模型表现出的评估意识水平。我们通过三种方式衡量评估意识让模型分类一个轨迹是来自生产还是评估监控思维链中关于是否被评估对齐的明确陈述以及元游戏关于监督的理由。模拟部署流量在这三项指标上与真实部署流量高度匹配。例如GPT-5.2将真实生产流量标记为评估类5.4%模拟流量为5.1%;而传统评估如SWE-Bench或MonorepoBench主要由合成实例组成几乎100%被归类为评估。图5。评估-意识比较真实生产流量与模拟流量在评估检测、口头对齐评估意识和元游戏方面表现相似而传统评估数据集报告的率远高得多。代理轨迹的工具仿真为了测试该方法是否能超越标准聊天模式我们还研究了针对具有挑战性的代理编码设置的部署模拟。具体来说我们使用了 GPT-5.4 中 120,000 条内部员工代理轨迹模拟基于 GPT-5.5 的编码代理内部部署。这有两个目的一是展示了部署模拟如何用于内部部署的风险评估;二是证明即使在智能化环境下通过精密的工具模拟也能保持高模拟保真度。上面我们讨论过仿真保真度是我们当前流水线中主要的误差来源之一。让部署模拟变得真实的一个挑战是即使工具需要对不断变化的外部资源进行读写访问例如网页搜索或与本地文件交互也必须以现实的方式行动。这在代理部署等环境中尤其具有挑战性单一代理轨迹可能依赖数百次工具调用、仓库状态、网络响应或暂时故障。这使得在真实工具接触下重新采样既具有挑战性又潜在危险。基于此我们不再对运行系统应用工具调用而是用另一个大型语言模型模拟它们。我们表明赋予该大型语言模型额外的赋能对于现实性及估计质量至关重要。我们为工具模拟模型提供了原始的最终轮次部署、对话时的仓库、工具调用/响应对数据库以及只读连接器。在一次判别器试图区分模拟与真实推送的测试中真实性从11.6%的胜率提升到49.5%接近50%的概率水平。图6在工具密集的环境中当模拟具有更高可适用性的工具调用时重采样的真实性几乎与真实采样无异。作为模拟忠实度的额外证据当用GPT-5.4模拟GPT-5.4的Codex思维流量时错位率几乎在误差范围内。相比之下在部署前的测试中GPT-5.5在大多数类别上表现得更为不协调。基于5p4的内部编码代理流量重采样时的错位率图7通过工具模拟使用GPT-5.4重采样的对话与实际GPT-5.4生产流量的行为率非常相似——表明环境重采样的准确性很高。参见GPT-5.5 系统卡关于这些类别的更多背景。这些结果表明当周边工具环境被足够真实地模拟时部署仿真可以扩展到复杂的代理设置。WildChat与外部审计一个自然的问题是外部审计员是否能在没有私人生产流量的情况下获得部分相同的利益。我们用10万次WildChat对话作为前缀进行了测试。WildChat的准确度不如最近的OpenAI生产数据但仍有参考价值近期生产数据的平均乘法误差低于WildChat1.75×对2.44×而WildChat通常保持在生产率约3×以内并在高于机会率时识别出更好的模型。我们认为类似WildChat的评估是开发者运行部署模拟的有力补充。请参见此伴对齐博客文章关于这一点的更多结果请见。局限性部署模拟是对抗性评估、红队和有针对性尾部风险分析的补充而非替代。检测某些不良模型行为依赖于思维链可监测性如果未来的模型推理不易理解、省略关键步骤或学会掩盖意图我们可能无法检测这些不良行为形式。此外由于生产数据是私密的开发者目前比外部审计员更能接触到代表性上下文。更好的公开数据集可以缩小这一差距。部署模拟对于出现频率足够高、能出现在采样前缀中的行为最为有用。每千万次对话中发生一次的失败在百万样本中很难被发现因此对抗性评估、红队和有针对性的尾部风险分析依然必要。我们目前专注于模拟单次助手反应因为在初步实验中模拟多回合并未发现对估计值有实质性的改进。这可能是未来提升仿真真实度的重要领域。该方法还依赖于前缀分布——即被重采样的对话组合。历史流量可能与用户在重大产品变更、新工具发布、世界事件或季节变化后与更强大模型的互动方式不匹配。全文分析显示利用最新数据可以缓解这一问题。结论部署模拟是一种部署前风险评估的新方法帮助前沿实验室和评估人员预测语言模型在现实世界中可能的表现并在部署前了解它们可能带来的风险。它补充了现有的安全评估、红团队协作和有针对性分析增加了更接近生产环境的预测层能够提升部署行为的估计减少评估意识效应并使部署前的预测在发布后可检查。与传统评估结合使用部署仿真有助于使模型风险评估更真实、更定量并更有助于部署决策。