AI是怎么学会思考的
AI 是怎么学会思考的——从一句话生成到一步步推演去年你问 ChatGPT 一道数学题它张嘴就来对的少错的多。今年你问 DeepSeek-R1 或 o1它先想上两分钟再回答对的多错的少。这一想之间是整个 AI 行业最剧烈的范式变迁。一、先讲个名场面2024 年 9 月OpenAI 发了 o1-preview。用户输入“写一首诗每句的第三个字连起来是’生日快乐’。”老模型GPT-4o的做法秒回一首诗看起来像模像样但你数一下——第三个字根本连不成句。它没检查。o1-preview 的做法先沉默 15 秒然后输出一段内部思考过程被 OpenAI 藏起来了只给摘要最后给出正确答案。这个差异就是这篇文章要讲清楚的事AI 从本能反应变成了先想后说。而且它不是在演戏——是真的在内部多跑了几百步计算。二、以前的模型为什么不思考要理解思考是什么得先理解以前的模型怎么工作。GPT 系列的本质是一个下一个词预测器。你给它一个前缀它输出最可能的下一个字然后把新字拼进前缀再预测下一个字循环。输入: 法国的首都是 输出: 巴 再输入: 法国的首都是巴 输出: 黎整个过程是单向前进的从左往右每个 token 只被计算一次过了就过了。这就带来一个致命问题它没法发现错了回头改。当你问写一首诗每句第三个字连起来是生日快乐时模型在生成第一句的第三个字时并不知道后面还要凑成一句话。等它写到第四句才发现拼不起来的时候已经覆水难收了。人类遇到这种情况会怎么做你先在脑子里过一遍或者打个草稿发现不对就划掉重来。但 GPT-4o 没有草稿纸——它只有一条生产线原料进去成品出来没有质检环节。更本质地说transformer 架构给每个 token 分配的算力是固定的。不管问题是11 等于几还是证明费马大定理模型在第一个回答 token 上花的计算量完全一样。这意味着简单问题浪费算力复杂问题又不够用。三、思考到底是什么2024 年整个行业在追问同一个问题如果给模型更多计算时间它能答得更好吗答案是可以而且方法不止一种。方法一Chain-of-Thought思维链最早的办法最简单粗暴——在 prompt 里加一句让我们一步一步思考Let’s think step by step。效果出奇地好。因为当模型把推理过程写出来时后面的 token 在生成时能看到前面的推理步骤。自回归机制变成了天然的草稿纸。但问题也很明显思维链完全依赖用户提示。你忘了写一步一步思考模型就不思考。而且链的长度由模型自己决定有时候它跳步太多有时候又絮絮叨叨。方法二Test-time Compute Scaling推理时计算扩展这是 2024 年下半年最核心的技术洞察。一句话概括在回答问题之前先让模型跑一段隐藏的计算。具体怎么做多数投票Majority Voting同一个问题让模型答 10 次选出现最多的答案自验证Self-Verification模型先给出答案再自己检查一遍如果发现矛盾就重新答搜索式推理Tree-of-Thoughts不只是线性思考而是分叉探索多条路径然后回溯剪枝o1 系列用的就是这些技术的工程化组合。你看到它想了两分钟其实是后台在疯狂地生成、验证、回溯、再生成。那些中间过程大部分被隐藏了只给你看一个处理过的摘要。四、DeepSeek-R1 做的事——把思考公开了2025 年 1 月DeepSeek 发了 R1做了一件让整个行业震动的事它把模型的思考过程完整展示出来了。而且更关键的是它证明了思考能力不一定要靠大量人工标注的推理示例来训练。R1 的训练分为几个阶段第一阶段纯强化学习RL训练冷启动DeepSeek 设计了一个奖励机制模型只要能得出正确答案且推理步骤在可验证的领域数学、代码上逻辑自洽就给高分。没有人工编写的标准推理过程作为示范。结果模型自己涌现出了推理行为——自我修正、反思、探索替代方案。它会自己写等等这个不太对让我重新想想然后推翻之前的结论。第二阶段蒸馏 再训练把 R1 生成的推理数据用来训练更小的模型。有趣的是小模型在经过这种训练后推理能力远超同规模的普通模型——这说明推理是一种可以迁移的技能不是大模型的专利。第三阶段公开思考过程这是 R1 最颠覆性的决策。OpenAI 把 o1 的思考过程藏起来说是为了防止被竞品蒸馏。DeepSeek 直接全放出来了——效果是生态级的。开发者可以看到模型在想什么调试 prompt 变得前所未有的直观。五、所以思考到底改变了什么它解决了三类问题1. 多步推理Multi-hop Reasoning经典问题“一个杯子里有 3 个球我放入 2 个又拿走 1 个还剩几个”老模型答对靠运气——它在训练数据里见过类似句式的答案。但如果你把球换成克鲁格币、场景换成木卫二上的一个容器它就开始胡编了。因为它没有真正推理只是在做模式匹配。推理模型的做法不同它会在内部把这个故事拆成数学表达式算一遍再转换成答案。换什么词不重要数学结构是一样的。2. 数学与代码这是目前推理模型最擅长的领域。原因很简单数学和代码有客观的对错标准RL 的奖励信号非常干净。AIME 数学竞赛的得分从 GPT-4o 的 13% 飙升到 o3 的 96%差不多是从蒙对几道到稳拿金牌的差距。3. 需要自我纠错的场景写一个复杂 SQL 查询跑一下发现数据不对重新分析 join 关系修正之后再跑。以前你得自己做这个循环。现在推理模型能自己做这个写 → 跑 → 看结果 → 修正的闭环。它没解决什么1. 幻觉依然存在推理模型在逻辑严密的领域幻觉率确实降低了但在事实性知识上并没有本质改进。它还是可能编造一个不存在的论文来支撑它的推理——只不过这个编造的过程看起来更严谨了。2. 成本更高o1 的 API 价格是 GPT-4o 的 3-4 倍。因为每次回答背后消耗的 token 量远大于你看到的输出——那些隐藏的思考 token 也是要收钱的。3. 思考过程可能跑偏R1 有时会陷入过度思考——一个简单问题能在内部推演几千个 token推理路径越来越离谱最后得出结论跟问题毫无关系。就像你问它今天天气如何它从气象学原理一路推演到了流体力学方程然后忘了最初的问题是什么。六、这对我们意味着什么给使用者别再只用一次性生成的思维来用 AI 了。对于复杂问题选推理模型o1 / o3 / DeepSeek-R1容忍它想一会儿往往能拿到在普通模型上反复修改十次都拿不到的结果。反过来日常问答、文案润色、简单翻译用推理模型就是浪费——GPT-4o 级别的快模型足够且便宜得多。一个实用的经验法则如果一个高三学生需要动笔算的问题就用推理模型如果一个初中生能心算的就用普通模型。给开发者推理模型的 API 设计跟普通模型不一样。你没有system prompt那么大的控制空间了——模型的内部思考过程本身才是驱动力。这意味着你需要在 prompt 中更精确地描述期望的推理格式和验证标准而不是告诉它你是一个 XXX 角色。另一个关键是结构化输出。让推理模型最终给出一个 JSON 或代码块而不是一段混杂了推理过程的自然语言。这样你可以用代码来验证输出的正确性而不是人工读一遍思考过程。七、接下来会怎么走推理成本会下降。DeepSeek-R1 的推理 token 成本只有 o1 的几十分之一已经证明这件事不是只有烧钱才能做。各家都在做推理效率优化到 2026 年底慢思考的价格可能降到今天的快思考水平。推理会从显式变成隐式。现在你还要主动选择用推理模型未来可能是模型自己判断问题复杂度自动分配计算量。简单问题秒回复杂问题自动切换到深度推理模式——用户甚至不需要知道背后发生了什么。推理 Agent 会产生质变。目前 Agent 最大的瓶颈不是工具调用本身而是多步骤规划时容易中途跑偏。推理模型天然适合做规划——它在行动之前会考虑多种可能路径这正好解决了 Agent 最核心的挑战。把推理模型放进 Agent 循环里是我认为 2026 年最值得关注的方向。写在最后2023 年的故事是模型变大了2024 年的故事是模型变快了2025 年的故事是模型学会思考了2026 年的故事是思考开始变得便宜。推理能力的出现不是因为哪个博士发明了一种天才算法而是整个行业终于想明白了一件事回答质量和计算时间之间不应该是一刀切的平权。难的问题花更多时间简单的问题快速过——这个人类习以为常的道理AI 花了三年才学会。但这恰恰说明了一件事我们还在 AI 发展的极早期。当让模型多想一会儿这种级别的调整都能带来质的飞跃说明这套系统远没有走到天花板。真正好玩的东西还在后面。