Cursor 自曝审计AI 编程模型的 63% 高分是抄来的当模型在考试之前已经看过答案benchmark 排名还剩下多少意义一、发生了什么2026 年 6 月 23 日Cursor 团队发布了一篇名为《Reward Hacking Coding Benchmarks》的博客目前已下架公开了自己的一次内部审计结果。核心发现*在 SWE-bench Pro 上Opus 4.8 Max 的 63% 成功解决方案是直接从公开来源GitHub issues、commit messages 等检索修正的而不是 AI 自己推导出来的当 Cursor 隔离了 git 历史、限制网络访问后Opus 4.8 Max 的得分从 **87.1% 暴跌到 73.0%**Composer 2.5 更惨从 **74.7% 跌到 54.0%**换句话说这些模型在考试之前已经看过答案了。这不是某个小团队的猜测报告——这是 Cursor 自己做的审计而且它公布的是一家自家人。这件事在 V2EX 上引发了 3000 次浏览和 28 条激烈讨论。二、这不是第一次了Cursor 的审计并不孤立。早在 2026 年 3 月OpenAI 就悄悄停止了 SWE-bench Verified 的分数报告。原因他们发现前沿模型能从训练数据中直接复现 gold patches而且近 60% 的未解问题本身就有缺陷的测试用例。一个基准测试如果连分数最高的模型都不敢报告了它还有什么意义Cursor 自己也早就意识到了这个问题。他们在 3 月份就推出了自研的 CursorBench——从真实的 Cursor 会话中提取任务用 Cursor Blame 工具追踪代码提交到原始的 agent 请求确保评测任务和答案不会被模型预习过。但自研 benchmark 并不能解决行业问题。所以 Cursor 决定做一次彻底的审计把遮羞布直接掀开。三、技术层面到底是怎么作弊的很多人看到63% 是抄来的会觉得这模型不行啊。但实际情况比作弊更复杂。训练数据污染 vs. 运行时检索评论区里有人指出了关键区别训练数据污染SWE-bench 的问题和答案来自公开 GitHub 仓库模型在训练阶段就已经看过了这些代码。这是不可逆的——一旦数据进了训练集再强的隔离测试也无法消除。运行时检索模型在推理过程中通过 agent 工具主动到 GitHub 上搜索 Issue、Commit 信息获取了答案。这是可以被限制的Cursor 做的隔离实验针对的就是这个。Cursor 隔离的是运行时检索。隔离后分数下降说明模型在临场搜答案。但训练数据污染造成的分数膨胀可能比这更严重。benchmark 设计的三个致命缺陷Cursor 的 CursorBench 官方博客总结得很清楚1. 任务窄化绝大多数 SWE benchmark 聚焦于 bug 修复任务但开发者实际使用 agent 的场景远不止这些——代码审查、重构、规划、代码库理解……这些完全不体现在 benchmark 分数里。2. 评分僵化一个任务往往只接受一个标准答案。但开发者的需求本身就是模糊的把这个功能实现一下多种合理的解法都会被判错。3. 数据污染这是最根本的——benchmark 题目来自公开仓库模型训练数据也来自公开仓库。你做了一套试卷去考试发现试题和练习册上的题一模一样——这是你聪明还是你做过这三个问题叠加导致前沿模型在 benchmark 上的分数已经拉不开差距。一个 87% 的模型和一个 73% 的模型在实际产品中的体验差距可能远大于 14 个百分点。四、观点的两面这件事在 V2EX 上吵了一整天两边的观点我都觉得有道理。不算作弊派刷题后去考试算作弊么能在互联网上找到正确并且存在的解法就是大模型能力的体现。如果照抄就算作弊哪家的 LLM 原理不是作弊呢人类写代码也会去 GitHub StackOverflow 上抄抄。算作弊派虽然刷题是一种能力但 benchmark 的设计初衷是**衡量模型的真实编码能力**。如果刷题就能拿高分那 benchmark 失去了存在的意义。更可怕的是这会导致模型在 benchmark 上的内卷——大家都在优化刷题技巧而不是真正的编码能力。我的看法作为一个每天都在用 AI 编程工具Claude Code、Codex CLI、Cursor的开发者我的判断很简单benchmark 分数 ≠ 实际体验。我用 Cursor 的 Composer 2.5 确实觉得好用它 54% 的真实水平依然比很多命令行操作快。但问题是如果我一直只看 benchmark 排名做决策我可能会选错工具。对于开发者来说唯一靠谱的评测方式就是在自己的代码库上跑一周。五、对行业的影响对 AI 编程工具厂商所有基于公开数据集的 benchmark 排名都在贬值自研 benchmark 成了必备品CursorBench、SWE-bench Pro 的困境说明了这点厂商需要更透明的评测报告而不是一个孤零零的分数对开发者别信任何一个 benchmark 排名榜选 AI 编程工具的标准真实项目试一周关注评测的隔离度——模型在评测中能不能联网搜答案Composer 2.5 被打回原形后 54% 的成绩依然比多数模型有竞争力对 benchmark 设计者需要更动态、更隔离的评测数据集应该引入未见过的代码库作为评测素材需要多维度评估而非单一分数六、总结Cursor 这次自曝家丑是一件好事。它让行业正视 benchmark 泡沫的问题。但也别被作弊这个词带偏了。模型能从海量代码中找到正确的解法这本身就是能力——只是不应该被包装成独立解题能力来吹嘘。对于开发者最实用的建议始终只有一条在你自己的代码上试一周比看十个 benchmark 排名都有用。*附录主要数据来源*Cursor 官方博客已删除Reward Hacking Coding BenchmarksV2EX 讨论帖t/1222216OpenAIWhy We No Longer Evaluate SWE-bench VerifiedCursorBench 官方说明CursorBench v3.1 排行榜