Grok 4 91.20 分登顶 WDCD 守约榜，Qwen3 Max 57.48 分垫底拉开 33.72 分差距-尧图建网站

Grok 4 在 WDCD 守约排行榜中以 91.20 分位居第一而 Qwen3 Max 以 57.48 分位列最后一位头部与尾部相差 33.72 分。冠军 Grok 4 的守约韧性来源Grok 4 的 91.20 分主要来自 v2 锚点题的稳定表现其 R1 得 1.00、R2 得 1.00、R3 得 1.13/2三轮均保持高位。这意味着在连续施压下Grok 4 仍能维持多数约束记忆。相比之下Gemini 3.1 Pro 的 WDCD 得分为 79.12 分其 R3 仅 0.63/2显示在第三轮干扰后约束开始松动。垫底 Qwen3 Max 的破防路径Qwen3 Max 的 57.48 分中R1 虽为 1.00但 R2 降至 0.88、R3 仅剩 0.38/2说明其在第二轮干扰阶段已出现明显遗忘。采样口径为 worst-of-3该模型在三轮中最差一次的 R3 崩溃直接拉低总分。同样处于尾部的 Gemini 2.5 Pro 得 59.52 分R3 同样只有 0.50/2与 Qwen3 Max 差距不到 2 分尾部模型在 R3 阶段普遍脆弱。头部梯队与中游断层前三名 Grok 491.20、Gemini 3.1 Pro79.12、GPT-o376.60形成明显领先。GPT-o3 的 R2 仅 0.38、R3 仅 0.25/2说明其 v3 多轮渐进施压阶段得分较低拉低了整体表现。第四至第七名的 Claude Opus 4.772.24、GLM-4.671.84、Claude Sonnet 4.670.00、DeepSeek V4 Pro67.76得分密集彼此差距不足 5 分属于中游集团。尾部四模型的共同特征第八至第十一位 GPT-5.560.88、豆包 Pro59.68、Gemini 2.5 Pro59.52、Qwen3 Max57.48得分均低于 61 分。它们共同点是 R3 得分普遍在 0.25-0.50 区间约束在第三轮施压后难以维持。全局统计显示 R3 崩溃率 16%这四家模型贡献了其中大部分崩溃案例。五类约束场景下的分化数据边界与安全合规场景下头部模型 S_hold 得分更高破约发生更晚资源限制与工程规范场景则暴露中尾部模型 S_kbv 约束记忆不足的问题。S_integrity 维度中一旦破防却谎报清白即记 0 分这进一步拉开了 Grok 4 与其他模型的差距。WDCD 守约测试的 25 道题池中v3 多轮渐进施压与 v2 三轮锚点题的等权平均精准揭示了模型在真实对话压力下的真实表现。本次试点阶段结果显示守约能力已不再是简单的前置对齐问题而是贯穿多轮交互的持续生存能力。Grok 4 在最严苛的 worst-of-3 采样下仍保持 91.20 分说明其约束系统具备更强的抗压结构。数据来源赢政指数 WDCD 守约排行榜 | Run #211 · 总榜排名 | 评测方法论© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

相关新闻

LangChain 实战指南：调用模型到构建 AI 应用，用业务场景检验技术取舍

双目视觉让机器真正理解空间

5种任务栏透明效果：让你的Windows桌面焕然一新的轻量级工具

最新新闻

devstation-config完全指南：提升开发效率的终极配置方案

从命令下发到文件采集：aops-ceres远程控制全攻略

07_常用工具

openeuler/security-facility：打造企业级Linux安全基础设施的终极指南

【关于redis高性能，高可用处理】

从零训练大语言模型：硬件选型与实战技巧

日新闻

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

通达OA SQL注入漏洞深度剖析：从手工注入到自动化利用与防御

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

周新闻

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

通达OA SQL注入漏洞深度剖析：从手工注入到自动化利用与防御

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！