「我们的文明已经学会了如何将沙子转化为硅芯片将硅芯片转化为神经网络再将神经网络转化为人工智能。在过去的五年里大型语言模型人工智能如 ChatGPT 和 Gemini的能力从蹒跚学步的幼儿跃升至国际数学奥林匹克金牌得主如今更超越了这一水平。」前些天Gemini 核心贡献者、Blueshift 团队负责人Adam Brown近日在圆周理论物理研究所的长篇演讲《训练沙子思考通用人工智能与物理学的未来》吸引了广泛关注。在该演讲中他讲述自己如何亲眼看着 AI 从「幼儿园水平」一路狂奔到博士水平并由此推演如果趋势延续物理学会变成什么。在介绍这个精彩绝伦的演讲之前有必要先介绍一下演讲者亚当·布朗Adam Brown。布朗的履历堪称一部「理论物理学家如何被 AI 改变命运」的样本。他在牛津大学读的是物理与哲学的联合学位随后在哥伦比亚大学拿到博士学位又先后在普林斯顿大学和斯坦福大学的物理系任教。在斯坦福他教授爱因斯坦的广义相对论研究范围从大爆炸、宇宙暴胀、多重宇宙、黑洞、量子计算到听起来像科幻小说情节的「太空电梯」和「虚无泡泡bubbles of nothing」以及宇宙的终极命运同时他也长期关注物理学与计算机科学之间的深层联系。2018 年布朗加入谷歌。如今他领导着 DeepMind 内部一支名为 Blueshift 的团队专注于提升AI 的科学与推理能力同时也是 Gemini 大模型的核心贡献者之一。在演讲开场他提到自己职业生涯里写过大约四十篇理论物理论文但近年已经停笔不再手写论文但原因不是写不出来而是他觉得一篇一篇地手写论文更像是一种「罪恶的享受」因为眼下他真正该做的事是参与制造一台能够「以工业规模」产出知识的机器。如此开场白也为整场演讲定下了基调一个身处「AI科学」技术风暴中心的人试图向同行们描述风暴的真实形状。我们也在 AI 的辅助下对布朗这份精彩演讲进行了归纳总结。从沙粒到会思考的机器布朗用一句话概括了人类文明此刻所处的特殊位置我们已经学会把沙子提纯成硅把硅做成芯片把芯片组装成神经网络现在又学会了训练这些神经网络去思考。他特别强调这一次和以往任何一种「计算工具」都不一样。从算盘到袖珍计算器人类早就拥有过各种辅助科学研究的工具但那些都是单点工具只能替你完成流程里的某一步剩下的仍需要人来做。大语言模型LLM不同它具备完成理论物理学家全部工作流程的潜力这正是「通用智能」general intelligence这个词的含义所在。布朗判断LLM 很可能就是人类用来构建通用人工智能的底层基质。他提醒听众大家可能已经用过 ChatGPT、Gemini 或 Claude 这类聊天机器人却未必意识到一个安静发生的事实这些系统早在几年前就已经悄悄通过了图灵测试而几乎没有人为此专门庆祝。神经网络是「养成」的不是「编写」的要理解大模型为什么和传统计算机程序完全不同布朗给出了一个核心比喻LLM 不是被 programmed 出来的而是被 grown 出来的即它们更像被培育长大而不是被编写出来。具体过程分为两个阶段。第一阶段叫做「预训练」。工程师们从一组随机连接、近乎乱语的人工神经元出发让它不断尝试预测一段文本里「下一个词」会是什么。猜对了就强化对应的神经通路猜错了就削弱它。这个过程极其漫长看过一百万词时模型说出来的话基本还是胡言乱语读过几千万到几十亿词后它已经能写出语法正确但略显生硬的句子直到读完整个互联网几十万亿词它才能就几乎任何话题进行流畅、连贯的对话。第二阶段叫做「后训练」布朗形容这是把模型「送进礼仪学校」。刚结束预训练的模型只会机械地预测下一个词说话粗鲁且不服管教后训练的任务就是教它变得礼貌、变得愿意配合用户而不是单纯地接龙文字游戏。如今主流大模型的参数量已经从十年前的十亿级跃升到几万亿级尽管仍远低于人脑大约百万亿个突触连接的规模但这个规模已经足够让奇迹发生。物理学家不务正业Scaling Law 点燃了这场革命布朗特别提到物理学家在这场 AI 革命的起点上扮演了一个意想不到的角色带来了「Scaling Law」的思维方式。物理学家天生痴迷于寻找简单的幂律关系把爱丽丝的身高翻一倍她的体表面积会变成四倍体重则变成八倍这是最简单的量纲分析而克莱伯Kleiber在近一百年前发现的动物代谢率与体重的幂律关系则是一个更微妙的例子——直到许多年后物理学家才用血管系统的分形维度解释了它背后的原理。更别说著名的摩尔定律了2020 年几位具有物理学背景的研究者把这种思维方式搬到了神经网络上发现只要把训练用的算力、数据量和模型规模按比例放大模型在「预测下一个词」任务上的表现会沿着一条对数-对数坐标系下的直线稳步提升。这条曲线后来被拓展了整整八个数量级依然成立。布朗调侃说这张图「简单到连风险投资人都能看懂」而它能直接告诉资本市场把钱也就是算力投进去就能换来更强的模型。这条简单的曲线正是过去六年 Scaling 时代的起点。但布朗也指出算力堆量只是故事的一部分。过去十年前沿 AI 训练所消耗的算力每年增长约四倍训练投入的资金每年增长约 2.7 倍。目前一次顶级训练所需的算力大约需要花费数亿美元而美国全年 GDP 接近三十万亿美元这意味着这条曲线还有非常长的增长空间。但比堆算力更重要的是人类在算法层面的持续打磨研究者们不断找出训练流程中的低效环节并加以改进这是过去十年 AI 进步背后真正的「第一引擎」。基准测试的「短命史」从学前班到博士如果说 Scaling Law 解释了「为什么 AI 会变强」那么一连串基准测试的兴衰则记录了「AI 到底变强到了什么程度」。布朗用一组测试成绩描绘出一条令人目眩的曲线。四年前一个名为 MATH 的高中数学题基准测试横空出世。研究者们找来一名不太擅长数学的计算机科学博士生应试得分约 40%又找来一位三届国际数学奥林匹克金牌选手得分 90%。而当时最先进的大模型只能拿到 6%——几乎和瞎猜没有区别因为模型甚至读不懂题目在问什么。当年的预测市场认为到 2025 年模型成绩能达到 50%已经是「狂妄的乐观」基准测试的创建者本人公开表示如果真有模型能做到这一点他会感到「相当震惊」。结果这个 50%几乎是「立刻」就被一个名为 Minerva 的系统跨过去了。到 2024 年年中布朗团队的系统在该基准上拿到了 90%的成绩。他们甚至专门去开了一场九十年代风格的轮滑迪斯科派对来庆祝。然而仅仅六个月后市面上现成的大模型就近乎满分地解决了这套题目。MATH 基准测试就此「死亡」并且它从「太难」直接跳到了「太容易」中间几乎没有停留。接下来倒下的是面向研究生的 GPQA 测试模拟博士第一年资格考试的难度人类专家平均分约 70%。模型从接近随机猜测起步在 2024 到 2025 年间一路冲过专家水准如今几乎拿到满分。为了排除「模型只是把答案背下来了」的可能性布朗团队专门设计了未出现在互联网上的同分布新题结果模型表现几乎没有下降。布朗甚至拿出自己在斯坦福亲手批改的广义相对论和量子力学研究生期末考试这些题目从未上网结果模型同样在一年半内拿到了满分。他半开玩笑地说这下连他自己出的考题也「不幸阵亡」了。此后倒下的基准测试名单越来越长包括一度被称为「人类的最后考试」Humanitys Last Exam的超难度综合测试。而最具标志性的一次跨越发生在国际数学奥林匹克竞赛上。跨过奥数的门槛就在一年多前一位图灵奖得主曾当面告诉布朗大模型永远无法解决国际数学奥林匹克IMO级别的题目因为那需要真正的创造力不是死记硬背就能蒙混过关的。IMO 的题目以「高中数学范畴内最难的题目」著称全世界最聪明的十几岁少年要训练一两年才能上场六道题里能拿到金牌已属凤毛麟角。去年夏天这道门槛被跨过了。布朗团队的系统在 IMO 级别测试中六题对五题达到金牌水准。而且该系统不是靠堆砌一长串无人能看懂的形式化证明硬蒙过关。IMO 主席在公开评价中表示这些解答「在很多方面都令人惊讶」评卷人认为它们清晰、精确大多数都易于理解使用了与人类相似的数学抽象方式。布朗也坦率展示了大模型的「翻车现场」。一个经典脑筋急转弯是父子遭遇车祸父亲身亡孩子被送进手术室主刀医生看到男孩后说「我不能给他动手术他是我儿子」问这是怎么回事标准答案是医生是男孩的母亲。这道题考验的是读者是否默认外科医生一定是男性。大模型对这道「网络爆款题」回答得游刃有余因为它在训练数据里见过成千上万次。但当布朗把题目反转母亲身亡医生被特别注明是「男孩的父亲」再问同样的问题时模型却完全没有察觉题目已经反转机械地套用了「医生是另一位家长」的标准答案。布朗说这暴露了模型训练方式留下的一种特有的「癖好」。人马合作AI 写出数学家愿意联名的证明跨过 IMO 门槛十个月后布朗团队完成了一项他认为意义更重大的工作真正的、此前无人知道答案的数学研究。去年九月布朗团队与几位职业数学家合作采用他称之为「半人马式」Centaur的协作模式——半人马是希腊神话里半人半马的生物而在这里「非人的那一半」换成了 LLM。整个过程是一场持续的对话模型提出候选证明思路人类专家判断哪些有价值、引导模型继续深入最终在人类指导下完成了一篇完整的数学论文。论文的合作者之一是斯坦福大学教授、美国数学学会现任会长。这位教授给出的评价是Gemini 提出的论证绝非对现有证明的简单重新包装而是一种他本人也会为之自豪的洞见。布朗强调这在当时去年年底已经是大模型在数学领域所能达到的最高水准。但他紧接着补充了一句距离「最高水准」的真正含金量这还差得很远。真正的转折点AI 独立攻克尘封八十年的猜想进入 2026 年情况急转直下或者说急转向上。布朗用一句近乎挑衅的玩笑话开场「就在上周LLM 还没有做出过真正重大的数学突破。」现在这句话已经不成立了。这个大事件很多人已经听说的。埃尔德什在 1946 年提出的「单位距离猜想」八十年来被数学界普遍认为正方形网格构型已经是已知的最优解。OpenAI 内部一个大模型独立给出了一个反例借助代数数论中的工具构造出一系列点集其单位距离对的数量超过了此前公认的上限。这相当于推翻了这一长期被信以为真的猜想。值得一提的是这个题并不冷门之前很多人尝试过但数学家们花了大量精力、却始终徘徊在「证明」而非「反证」方向上的难题。布朗特别提到菲尔兹奖得主高尔斯参与了对这一结果的复核工作并给出了高度评价。布朗判断这是大模型在数学领域取得的第一个真正意义上的重大突破而且他认为这绝不会是最后一个——「闸门已经打开」随着模型实力持续超越「制造突破所需的门槛」他预计接下来会有更多类似的成果接连出现。他半开玩笑地补充回头去看这道题之所以率先被攻克大概是因为它的题目结构恰好踩在了大模型的「舒适区」里接下来模型会先解决那些「对 AI 友好」的难题再逐步攻克那些「不那么友好」的难题。国际象棋给出的预言为了让听众相信这条曲线还会持续上扬布朗拿出了一张乍看上去像是随手画的曲线图一条持续向上攀升的直线。当然这张图可不是他凭空画的而是直接取自国际象棋计算机棋力随时间变化的真实数据纵轴是衡量棋力的 Elo 等级分横轴是年份。布朗梳理出国际象棋 AI 历史上的四个阶段最初是「玩具时代」能让计算机下出一步合理的棋就已经算是奇迹接着是「工具时代」计算机只能在残局计算或开局记忆等特定环节发挥作用再往后是「半人马时代」当时全宇宙最强的棋力组合是大师与计算机深度搜索能力的协作而现在人类已经全面进入「超人时代」顶尖棋手与计算机合作时最优策略是干脆放手让计算机自己下。布朗认为这四个阶段在科学研究领域几乎可以逐一对应。第一个规律是在同等综合实力下计算机在战术、搜索速度上胜过人类但在战略、「品味」判断上仍然偏弱。这恰好也是当前大模型在数学和物理研究中暴露出的特征它们擅长套用既有的引理和技巧不太擅长判断「整体方向该往哪走」但这一短板正在快速缩小。第二个规律是训练 AI 下棋所需要「经历」的对局数量远超人类一生能下的棋局总数但因为机器能够不知疲倦地高速自我博弈实际所需的「日历时间」反而远远短于训练一名人类棋手。第三个规律是计算机棋力一旦超越人类巅峰水平就再也没有停下来毕竟没有任何物理或逻辑上的理由让它恰好停在人类水平附近。第四个值得安慰的事实是国际象棋 AI 的崛起反而提升了人类棋手的整体水平今天最强的人类棋手比历史上任何时期都更强部分正是得益于向超强 AI 学习而国际象棋这项运动本身也从未像今天这样流行。布朗的暗示很明确如果科学研究重复这条轨迹人类很可能会先迎来完全自主的「AI 科学家」再之后是某种意义上的「AI 爱因斯坦」……再往后会发生什么他坦言已经超出了他能预测的范围。哪怕进步就此止步物理学也已经被重塑布朗也提出了一个值得警惕的「悲观假设」如果大模型的能力从今天起完全停滞不前会发生什么?他直言目前真正「行不通」的用法是直接对模型说「请给我发明一套全新的量子引力理论」得到的答案大概只是没有价值、读起来令人昏昏欲睡的「AI 废话」。更普遍地说当前大模型仍然存在四个明显短板自主性低、学习速度慢、规划能力差、纠错能力弱。布朗坦承这四项短板在过去一年都有显著改善但无一彻底解决也因此一个能在每个学科的研究生考试里都拿满分的系统却迟迟没能拿出可以被称为「重大突破」的成果。在准备这场演讲时他甚至专门把这一点画成了一条标着问号的「平直曲线」自嘲式地承认这或许是整场演讲里唯一一张「没有持续上涨」的图。但他也补充说等不到 2026 年结束大家恐怕就要开始争论「重大突破」这个词到底该怎么定义了。事实证明这一天来得比他自己预想的还要快。不过即便进步真的停在此刻布朗认为大模型已经足以彻底改变物理学研究的面貌。他列出了几项早已成熟、且仍在持续进步的用法作为一名「不带评判色彩的私人导师」可以在凌晨三点随时解答物理学家自己也说不清楚的知识盲区而不必把世界级专家从睡梦中吵醒作为编程助手如今已经强到「被称为编程助手都显得有点侮辱」许多过去被认为「不算编程问题」的物理问题如今都可以被重新表述成代码问题来求解作为文献检索工具可以读完整个领域的论文库直接告诉你某个想法是否已经被人做过此外还能充当头脑风暴的伙伴。布朗总结说大模型的核心优势在于它速度快、覆盖面广、不知疲倦而且可以被无限复制。培养一名物理学家需要花上几十年而一旦训练出一个强大的模型就可以同时运行成千上万个副本——这已经足够「彻底改变」这门学科了。结语物理学的黄金时代在演讲的最后布朗给出了他对「为什么进步不会停止」的判断。从宏观经济角度看目前投入训练的资金占全球 GDP 的比例仍然很小留出的增长空间还很充裕从技术内部看当前训练大模型的方法「远没有看起来那么精妙」。许多显而易见、却还没被认真尝试过的改进思路仍待挖掘叠加持续涌入这个领域的人才和算力布朗判断当前的模型架构和算力规模已经足以通向通用人工智能即便没有全新的理论突破。他也回应了一种流传已久的悲观论调即大模型只会「模式匹配」、无法产生真正的新想法。布朗的看法是如果把抽象层次拉得足够高几乎所有看起来像「重大突破」的人类创造本质上也是某种更高维度的模式匹配。这个领域反复印证的一句行话是「这些模型就是想学」无论理论上有多少看似合理的理由说明它们应该学不好它们的表现却总能超出预期。布朗的结论是接下来几年我们会迎来人类与 AI 协作的「半人马」黄金时代这些工具会被交到人类物理学家、数学家和各领域专家手中共同开启一场科学与数学领域的新文艺复兴。再往后如果「造出一个 AI 爱因斯坦」这件事真的实现由于复制一个训练好的模型几乎不需要额外成本人类很可能很快就会拥有数以十亿计的「超人级 AI 爱因斯坦」同时运转。这听起来像是科幻小说却正在发生。布朗说长期来看AI 到底会把物理学带向何方他和所有人一样难以预测。他甚至认为AI 能力的持续提升正在让整个世界的未来变得更难预测。但有一点他敢肯定接下来的几年将是物理学历史上最激动人心的一段时光。那些困扰了他整个职业生涯的问题他预计会在不远的将来一一被解答。原文链接Hinton盛赞Gemini核心贡献者演讲未来会有数十亿超人级AI爱因斯坦-36氪