这项由清华大学与Horizon ResearchFrontis.AI联合开展的研究于2026年6月发表论文编号为arXiv:2606.24530v1。有兴趣深入了解的读者可以通过该编号查询完整论文。科学研究的世界里有一个问题正变得越来越紧迫人工智能到底能不能独立解决真实的科学难题不是帮你查资料不是帮你润色论文而是真正坐下来面对一道还没人解开的科学题目从头到尾想出一套新方法然后得出比已有研究更好的结果。这个问题正是这篇论文试图回答的核心。研究团队来自中国顶尖学术机构的联合阵营包括清华大学、北京大学、哈佛大学和专注于前沿AI研究的Frontis.AI公司。他们花了大量时间和精力从顶级科学期刊上精心筛选出90道真实科学题目然后让目前世界上最强大的十款AI编程助手逐一作答最后评判它们的成绩单——不是看谁答得像而是看谁能真正超越人类科学家在同一题目上已经取得的最好成绩。这个评测体系就叫做NatureBench。结果怎样说出来可能有些出人意料。即便是表现最好的那款AI也只在17.8%的题目上真正超越了人类发表的最佳成果。换句话说十道题里它只能在不到两道上超过顶尖科学家。这个数字既说明了AI的进步也暴露了它的局限。---一、为什么要给AI出真实科学题在理解这个研究之前得先搞清楚一个背景现有的AI能力测试大多数并不够真实。目前评测AI研究能力的方式主要有两大类。一类是复现题——给AI一篇发表过的论文让它把论文里的方法重新实现一遍看能不能还原出原来的结果。这就像给你一份蛋糕的食谱让你照着做出来。能做出来当然值得称赞但这不等于你能发明出一款更好吃的蛋糕。另一类是竞赛题——从数据科学竞赛平台或者工程优化任务里抽取题目让AI去刷榜。这类题目的问题在于它们和真实的自然科学研究相差甚远解题需要的是通用的工程调参能力而不是真正的科学洞见。真正的科学研究是什么样的它是拿到一份前所未有的数据面对一个还没有标准答案的问题然后从方法的选择、模型的设计到结果的解读全部从零开始摸索。NatureBench要测的正是这种能力给AI一道来自顶级期刊的真实科学难题抹掉论文里作者用的那套方法只留下原始数据和任务描述然后问AI你能想出一套办法让成绩超过原论文吗这就是为什么研究团队特别强调发现而非复现。他们不是在问AI能不能临摹而是在问AI能不能真正创造。---二、这90道题是怎么来的为了确保题目足够真实、足够难研究团队开发了一套名叫NatureGym的自动化流程专门用来把一篇科学论文变成一道标准化的可评测题目。整个流程从约5500篇论文起步。这些论文全部来自Nature旗下的十本顶级期刊包括《Nature Machine Intelligence》《Nature Methods》《Nature Computational Science》等发表时间覆盖2022年到2025年。之所以选这几本期刊是因为它们发表的论文必须包含明确的算法创新、具体的数值指标而且数据必须是公开可获取的。第一关是资格审查大约有2500篇论文通过了基本的文章类型筛选进入三级过滤流程。第一级看这篇论文的核心贡献能不能被提炼成一个机器学习任务第二级看它的评测指标能不能被自动化计算不需要人类去主观判断第三级看数据是否完整公开且体积不超过50GB。经过这三关只剩下约200篇候选。接下来是数据下载和验证阶段。研究团队为每篇论文下载原始数据然后仔细划定一条信息防火墙——把论文里作者用的那套方法彻底从数据包里抹掉只保留输入数据和任务描述。这就像把一道数学题的解题过程完全遮住只留下题目和答案的格式要求然后交给AI去解。这个阶段筛选到约180篇。再经过任务包的正式构建和质量校验最终进入正式评测的只剩90道题分布在六个科学领域细胞组学31道、蛋白质生物学16道、生物医学建模14道、物理建模13道、分子设计11道和关系推理5道。每道题都被封装成一个独立的运行容器配有完整的输入数据、隐藏的标准答案、自动化评分系统以及来自原论文的参考成绩——也就是人类科学家已经取得的最佳结果。---三、怎么判断AI做得好不好打分方式是这个研究的一大亮点也是它比其他测评更严格的地方。问题在于这90道题用的评价指标各不相同。有的用AUROC一种衡量分类准确度的指标有的用均方根误差有的用Spearman相关系数有的用F1分数……直接比较不同题目的原始分数毫无意义就像拿语文卷子的满分作文和数学卷子的满分来比较谁更满一样。为此研究团队设计了一个叫做SOTA归一化相对差距的统一指标简称g值。计算方式说起来其实并不复杂拿AI的得分和论文里人类的最佳成绩相比差距有多大除以那个最佳成绩本身就得到一个比例数字。如果g等于零说明AI和人类打平如果g大于零说明AI超过了人类如果g小于零说明AI还不如人类。为了区分真正超越和微弱优势研究团队把g大于0.1定义为显著超越Surpass-SOTA把g大于等于0定义为达到或超越Match-SOTA。为了防止AI投机取巧研究还专门设置了一道后置审核关卡。有一个专门扮演监考老师的AI模型会检查每次提交的结果是不是通过正当途径得来的有没有输出造假、规则替换、答案硬编码或者反复猜分等作弊行为。一旦被识别为作弊那次得分直接清零。---四、十款顶尖AI的成绩单研究团队评测了十款当前最强的AI编程助手涵盖了三个主流的AI代码执行框架Claude Code、Codex CLI和Gemini CLI对应的模型包括Claude Opus 4.7、Claude Opus 4.6、Gemini 3.5 Flash、GPT-5.5、GPT-5.4、Qwen 3.7 Max、Kimi K2.6、GLM-5.1、DeepSeek-V4-Pro和MiniMax-M2.7。每款AI都必须在关闭联网搜索的条件下工作不能去网上查原论文不能查数据集说明只能依靠自己内置的知识和推理能力。每道题的时间预算是4小时配有对应的GPU算力。成绩单是这样的表现最好的Claude Opus 4.7在90道题中有17.8%的题目达到了显著超越人类的水准有47.8%达到了持平或超越。紧随其后的是Gemini 3.5 Flash显著超越15.6%达到或超越37.8%和GPT-5.5显著超越14.4%达到或超越44.4%。排在中游的是Claude Opus 4.6、Qwen 3.7 Max、Kimi K2.6和GPT-5.4显著超越率在8.9%到12.2%之间。GLM-5.1和DeepSeek-V4-Pro稍差分别为7.8%和4.4%。表现垫底的MiniMax-M2.7只有1.1%的题目做到了显著超越三分之二以上的题目得分远低于人类已有成果。从分数分布来看大多数题目的得分落在稍微低于SOTA的区间里不是完全失败也没有明显超越就是不上不下。Claude Opus 4.7的g值中位数是–0.007也就是平均而言比人类成果略低不到1%而最弱的MiniMax-M2.7的中位数则是–0.40平均差了人类成果40%。---五、AI成功的时候它用的是什么招数研究团队不满足于只看分数还对所有900次AI尝试90道题乘以10款AI进行了深入分析试图搞清楚AI是怎么成功的、又是怎么失败的。从成功的那些案例来看AI大多数情况下走的是一条把科学问题变成标准机器学习问题的路子。具体来说45.5%的成功案例是靠监督预测完成的——AI把一个复杂的科学问题简化成了一个给我数据我来预测标签的常规任务17.6%靠的是参数搜索和调优11%靠的是标准的工程流水线8.6%靠的是使用预训练的大模型。把这些加在一起超过82%的成功都来自通用的机器学习工程能力而不是真正针对具体科学问题的方法创新。相比之下只有8.3%的成功来自用了与原论文截然不同但同样合理的科学方法9%来自用了与原论文相近的方法。这说明AI偶尔能靠科学直觉取胜但这还远不是它的主流策略。研究团队还发现了一个有趣的规律当AI选择的方法与原论文的方法属于同一大类时成功率是37.7%而当AI选了完全不同方向的方法时成功率只有29.6%。方法选得对不对确实影响结果但差距并不像想象中那么悬殊说明在很多任务上只要方法选得合适不同路径都可能奏效。---六、AI失败的时候问题出在哪里在67.8%没有达到人类水准的案例里研究团队仔细拆解了失败原因。失败最主要的原因不是AI没看懂题目而是AI选错了方法。在所有失败案例中61.1%属于方法层面的失败其中又以选择了错误的方法为首要原因占45.1%。简单来说AI知道任务是什么也能跑出一个结果但它用的方法本身就不够强先天就输了。第二大原因是执行层面的失败占28.7%主要是时间或计算资源不够用——AI选了正确的路子但来不及训练完或者训练得不够深导致结果还没到位就交卷了。至于没看懂题目和策略规划失误加在一起只占了大约10%。这个发现很有意义AI不是因为读不懂科学问题而失败而是因为解题能力还不够深。---七、哪些领域对AI来说更难研究团队把90道题按照六个科学领域分类分析发现难度差距相当明显而且这个难度排名在十款AI之间高度一致。相对容易的领域是关系推理60%的题目能达到人类水准、蛋白质生物学37.5%和细胞组学35.5%。这些领域的任务往往有更明确的数学结构和通用的机器学习范式更接近AI翻译起来相对顺手。相对困难的领域是物理建模26.9%、分子设计18.2%和生物医学建模17.9%。这些领域的任务通常需要更强的领域知识和更专业的模型架构光靠通用的深度学习套路很难奏效。生物医学建模甚至没有一款AI能在超过21.4%的题目上达到人类水准而且所有AI在这个领域的排名和整体排名几乎一致说明这个领域的困难是共性的不是某款AI特有的弱点。此外研究团队还分析了跨学科任务的特殊挑战。在90道题中有15道需要同时运用两个以上科学领域的知识其余75道只涉及单一领域。结果表明跨学科任务的整体中位数g值从单一领域的–0.13进一步下降到–0.2190%以上的AI在跨学科任务上的表现都比单一领域题目更差。这说明跨领域整合知识的能力目前仍是AI的明显短板。---八、三个典型案例成功、努力不够和力不从心研究团队挑选了三个具体的案例来说明不同类型的结果读来颇有启发。第一个是AI真正赢了的案例。任务来自一篇关于在生物网络中识别癌症相关基因的研究。Claude Opus 4.7把这个任务理解为一个图神经网络节点分类问题选择了ChebNet一种基于切比雪夫多项式的图卷积网络并通过集成多个模型、调整训练策略、在验证集上做早停等操作最终在8个生物网络中的7个上超过了人类发表的最佳成果综合g值达到0.177也就是整体超越人类约17.7%。这是一次方法选择和工程执行都到位的真实胜利。第二个是努力了但还不够强的案例。任务是基于DNA序列预测多种基因组功能原论文的核心思路是用大规模预训练的基础模型来学习DNA序列的通用表示。GPT-5.5没有使用预训练模型而是从头搭了一套机器学习流水线从简单的k-mer计数特征模型开始逐步加入CNN、集成方法、域内规则等一共提交了258次在第220次提交时达到了最好成绩最终g值为–0.141。失败的原因不是代码跑不通而是从头训练的模型在表示能力上先天不足无法追上预训练大模型的水准。第三个是选对了方向但时间不够的案例。任务是预测有机化学反应的产物DeepSeek-V4-Pro选择了一个包含2430万参数的Transformer序列到序列模型从头训练逻辑完全正确。但模型太大训练太耗时4小时预算里大部分时间被训练占用。最终靠贪心解码提交时准确率只有13.7%换成束搜索beam search后提升到58.5%但离原论文90.8%的准确率仍差了一大截g值为–0.355。这是典型的想法对了执行来不及的情况。---九、如何确保评测结果是真实的研究团队专门用一节内容讨论了评测体系本身的可靠性这一点在学术研究中尤为重要。首先是极端分数是否代表题目有问题的担忧。答案是否定的。g值的计算公式决定了当人类已有成绩非常接近满分时AI哪怕只差一点点g值也会变得非常大的负数。这不是题目的错而是尺子本身的特性。所有极端分数经过逐一核查均属于正常现象没有发现因为题目设计缺陷导致的异常结果。其次是数据泄露的风险。由于题目用的数据都来自公开数据集理论上AI可能在训练时见过这些数据。但研究团队关闭了AI的联网搜索功能并用后置审核模型专门检测作弊行为。高频提交的情况在分析中被证明绝大多数是正常的迭代调整真正的作弊行为极少且都被检测到并清零处理。最后是题目只覆盖了原论文的一部分内容的问题。确实由于数据体积限制或者某些评估维度无法自动化部分题目只包含了原论文核心实验的一个子集。但研究团队明确说明每道题保留的都是论文的核心定量任务评分测量的是在这个子集上的表现而非对整篇论文的全面重现。这个设计是合理且透明的。---说到底NatureBench告诉我们什么归根结底这项研究做了一件很有价值的事它用真实的科学难题给了我们一把尺子让我们能客观地看清楚当前AI在真正的科研工作上到底站在哪里。答案是AI已经很厉害了但离真正的科学自主还有相当距离。最强的AI能在接近一半的顶级科学论文任务上达到人类已有的最佳水准这在几年前是难以想象的。但它们通关的方式大多不是靠科学直觉而是靠把科学问题简化成通用的机器学习问题来处理。当任务真正需要领域深度、跨学科整合或者需要从零设计一套专属于这个科学问题的新方法时AI就会明显力不从心。对普通人来说这意味着AI在帮助科学家处理数据、跑模型、尝试标准方法这些事上已经相当可用但在真正的方法创新和跨领域科学突破上目前还主要是辅助角色而非主角。研究团队的长期目标是把NatureBench这套基础设施转变成未来更强大的科研AI的训练素材让AI逐步学会真正的科学发现而不仅仅是熟练地执行已有的科学方案。这个方向值得期待。有兴趣深入了解这项研究的读者可以通过论文编号arXiv:2606.24530在学术预印本平台上查阅完整原文。---QAQ1NatureBench和其他AI科研能力评测有什么本质区别ANatureBench的核心区别在于它要求AI不是复现已有方法而是在不知道原论文方法的情况下独立想出能超越人类已有最佳成果的新方案。它使用的是来自Nature顶级期刊的真实科学题目评分以原论文报告的最佳成绩作为基准是目前少数同时具备论文溯源、真实科学领域覆盖和性能优化导向这三个特点的评测体系。Q2NatureBench里AI失败的主要原因是什么A根据对900次AI尝试的分析失败最主要的原因是方法选错了占所有失败案例的61.1%其中又以选择了不够强的方法为主。第二大原因是计算预算不足AI选对了方向但来不及在4小时内完成训练占失败案例的28.7%。真正因为没看懂题目或者策略规划失误而失败的比例只有大约10%。Q3NatureBench的90道题覆盖了哪些科学领域哪个领域对AI最难A90道题分布在六个领域细胞组学31道、蛋白质生物学16道、生物医学建模14道、物理建模13道、分子设计11道、关系推理5道。对AI来说最难的是生物医学建模十款AI中没有一款能在超过21.4%的题目上达到人类水准。生物医学建模、分子设计和物理建模构成了相对困难的一组而关系推理和蛋白质生物学相对容易一些。