它不是低配的人:关于 LLM 智能本身的几个判断
现代科学的常规节奏是理论先行工程其次。先有麦克斯韦方程组几十年后才有无线电赫兹做出电磁波实验、马可尼做出无线电报背后都是写在黑板上的方程。一项新技术能落地往往是因为它的原理已经被讲清楚工程不过是把它搬下来。LLM 倒反天罡。它是少有的实践跑在理论前面的案例。Transformer 架构 2017 年公开参数堆到一定规模之后研究者忽然发现这台机器能写诗、写代码、解数学题、做推理而且没有人事先预测过会出现这些能力。它先跑在工程里再铺到商业上理论解释零零散散跟在后面至今没有共识。有人说是压缩有人说是涌现有人说是高维空间里的几何巧合有人说不过是一台很大的统计鹦鹉。每一种说法都解释了一部分每一种说法都留下另一部分讲不清楚。这是一件反常的事它意味着今天的工程师每天都在使用一台没人说得清原理的机器。我们让它写代码、让它评审一段方案、让它替我们做一些前置判断可一旦停下来追问它凭什么能做到这件事就会撞上一堵墙标准答案不存在。所以本文不是判决书这种判决书今天没人写得出来写出来的也是赝品。它想做的事更简单把我反复想过的几个问题摆出来和大家讨论。一、图灵和塞尔的隔代对话要追问 LLM 有没有智能绕不开两个人一个是图灵一个是塞尔。这两个人隔了三十年分别给机器能不能思考这件事出了两套答案。两套答案彼此对立又在今天被同一台机器应验。今天我们对智能的全部困惑几乎都能在他们俩那场隔代对话里找到原型。先说图灵。1950 年。那是二战刚过去五年电子计算机这件事在大众那里还是一个传说ENIAC 出来才四年全世界能跑程序的机器不到两位数。图灵自己刚在战时为破译 Enigma 立下汗马功劳那时他在曼彻斯特做计算机相关的工作。他在《Mind》上发了一篇叫Computing Machinery and Intelligence的文章。开头第一句就是后世所有讨论的源头I propose to consider the question, “Can machines think?”紧接着第二句他说这个问题如果按字面去回答答案要看你怎么定义机器和思考而这两个词的定义都指望不上。所以他换问题他提出一个叫模仿游戏的设置审问者通过文字跟两个看不见的对象对话一个是人一个是机器如果审问者分不出哪个是机器那就说我们没理由不承认机器在思考。这个换法的真正分量不在游戏规则本身在它重新定义了思考。图灵不是在绕开机器在不在思考这个问题他是在做一个比绕开更彻底的事他把思考从一个实质性问题变成了一个功能性问题。在他之前问机器在不在思考问的是机器内部有没有发生某种叫思考的活动在他之后问机器在不在思考问的是机器表现得像不像在思考。这是个哲学姿态上的大转弯它隐含了一个判断思考要的是结果不是过程要的是它能做出什么不是它内部用什么机制做出来的。这个姿态在 1950 年是大胆的。那时候人们普遍假设思考是一件需要灵魂或者至少需要内省体验的事。图灵不愿意进那个泥潭他选择把思考重新放到外部行为这个可验证的试验台上只要它能做出思考做出的那些事叫不叫思考已经不重要。这是工程师式的、几乎是不近人情的清醒。七十多年之后这个换法直接命中了 LLM。模型确实能让人在很多对话里分不出它是不是机器。日常聊天、客服回复、工作沟通的大量场景里普通人很难分清屏幕那头是模型还是真人。按图灵 1950 年的标准这件事就该结案了。但我们都知道事情没这么简单直觉上它能让我分不出和它真的在思考之间还是有距离。这个距离是怎么来的距离的第一种来源是图灵当年的判定标准遇到了一种他没想到的情况。图灵的提议建立在一个隐含前提上在 1950 年的世界里能把话说得跟人几乎相近的东西背后必然有某种类似思考的机制。这个前提在当时几乎是不证自明的几十万年来能把话说圆的对象只有一类就是会思考的人。语言能力和判断能力在生物学上一直是绑在一起的没有先例把它们拆开过。在这个前提下把文字上不可分辨作为思考的判定标准逻辑链是闭合的。LLM 出现之后这个隐含前提第一次被现实捅破。它在外部行为上极度逼真但内部机制自回归 概率预测跟人脑思考的机制几乎不重合。它把语言能力和判断能力第一次拆开了一个东西可以把话说圆但里面没有任何东西在想。这不是图灵推理错了是 1950 年的物理世界里不存在这种东西他没有理由把它纳入考虑。后果是图灵当年那条判定标准本身没问题但它默认的那个前提失效之后标准本身的诊断力也跟着塌了一半。今天一台机器通过模仿游戏已经不能像 1950 年图灵设想的那样反推出它内部在做思考因为我们现在知道外部行为和内部机制之间那条曾经牢固的桥梁是可以被绕开的。距离的第二种来源三十年后由塞尔提出。这是这场隔代对话的另一半。1980 年。那时候 AI 已经经历了一轮高峰和一轮低谷。符号主义 AI 当时是主流MIT、CMU、斯坦福一线的研究者普遍相信只要把规则写够、把符号操纵做好机器就会真正理解。这一派里最自信的人甚至说几十年内机器就会拥有跟人无差的心智。塞尔一个加州大学伯克利分校的语言哲学家不是 AI 圈内人。在《行为与脑科学》上发了一篇叫Minds, Brains, and Programs的文章。这篇文章里他给出了一个思想实验后来被叫做中文房间想象一个屋子里坐着一个完全不懂中文的人。他面前有一本厚到惊人的规则手册手册上写着当你从门缝下面收到这样的中文符号串你就按照这些规则从你手头的符号库里挑出对应的另一串中文符号从门缝下面递出去。屋外是一个真正懂中文的人他从门缝下塞进去问题从门缝下收到回答。问题答得天衣无缝外面的人完全相信屋里坐着一个懂中文的人。但屋里那个人从头到尾不懂一个字。塞尔的问题是屋里那个人懂中文吗这个屋子作为一个整体懂中文吗答案很明显都不懂。规则手册上的操作是句法的只动符号、不碰意义而真正的理解需要语义。符号要指向某个东西操作者要知道符号指的是什么。中文房间里只有句法没有语义。所以即便它在外部行为上完美通过了图灵测试它也没有真正在思考。塞尔破除的不是图灵 1950 年那个谨慎的模仿游戏图灵自己从来没说过通过测试就等于在思考他只说过我们没理由不承认它在思考。塞尔砍向的是图灵之后那一整代研究者那些把图灵测试当成判智能的金标准、把通过测试就等于有心智当成默认前提的人。塞尔在告诉这群人你们走错了仅凭外部行为这件事永远不能证明内部有理解再厚的规则手册也不能。中文房间在 1980 年是地震式的。它在符号主义 AI 最自信的时刻把心智 程序这个等式直接砸了。它没有否定 AI 能做有用的事它否定的是 AI 能做出有理解的事。这两个论证今天同时遇到 LLM而且各自都还活着这是这场隔代对话最有意思的地方。LLM 一方面在做图灵想象不到的事它在外部行为上骗过了人但内部确实没有像人那样在思考图灵当年的假设被它击穿了。但另一方面它又完美地扮演了塞尔当年描述的那个屋子参数就是那本规则手册前向传播就是查表操作所谓的回答就是从概率分布里采样出的符号串。它处理的全是句法至于这些符号指向的世界指向一只猫、一段历史、一种情绪。它从来没接触过。它从来没见过猫没活过历史没体会过情绪。它只见过这些词在别的词旁边出现的统计规律。塞尔的问题在 LLM 身上变得比 1980 年那天还尖锐它在外部能做的事远远超过塞尔当年想象的中文房间但它依然没有理解。或者说如果它有某种理解那种理解一定不是塞尔当年定义的那种语义性的、指向真实世界的、伴随意向性的理解它有的是另一种东西。到这里这场对话才真正开始变得有意思。它不再是图灵对、还是塞尔对的问题。它变成了一个更难的问题一个完全是句法操作的系统被推到足够大的规模上之后在外部表现出了某种像智能的东西。这件事到底是怎么发生的这种像智能的东西跟塞尔说的那种真的理解是同一种东西吗还是另一种我们之前没遇到过的东西这正是所有疑惑里的关键智能的定义本身到了重新被审视的时刻。是必须要有人类那种关联、判断、论证、意向性才算思考还是说足够极致的句法操作也就是足够极致的压缩就能自然生长出跟思考无法区分的行为而这种行为本身就值得被叫做某种新形态的智能这两个答案不是排他的。它们可能都对只是说的不是同一种智能。图灵和塞尔的对话留给我们的不是结论是一个新的入口。要往里走得先回到这台机器是怎么训练出来的尤其是为什么这种纯句法的训练为什么会表现出智能。二、压缩到极致会逼出像智能的东西这个问题的答案藏在模型是怎么被训练出来的过程里。虽然训练目标贫瘠到可笑但训练完之后浮现的东西远超训练目标本身。模型训练的目标其实只有一条拿一段文本遮住下一个词让模型猜猜错就调一下参数猜对就保持。如此重复几万亿次。这条目标里没有理解、没有知识、没有推理全程就是一个填词游戏。但当语料足够大、参数足够多、训练足够久之后这个填词游戏的副产品里浮现出了语法、概念、世界知识、甚至某种程度的推理能力。设的目标里没有这些东西它们自己涌现出来了。这在直觉上不该发生。我们对目标决定结果有一种朴素假设你要什么就得直接训练什么。要它会推理就给它推理任务要它有知识就喂它知识库。但在大模型上这个朴素假设崩了。一个只要求猜下一个词的目标最后训出了一个看起来什么都会的东西。塞尔的中文房间在这里被现实悄悄改写了一次塞尔当年默认那本规则手册是被人写出来的有人坐下来一条一条规定看到这个符号串输出那个符号串。规则的所有内容都来自手册编写者的理解。屋里那个不懂中文的人是在执行别人的理解没有自己的理解。这个画面里理解和操作是分开的理解发生在写手册这一步操作发生在屋里那个人那里。LLM 把这件事颠倒了。它的规则手册也就是那几千亿个参数不是有人坐下来写出来的是从海量的文本里被压出来的。压它的力量不来自任何一个理解者来自一条简单到极致的目标让下一个词的预测概率最大化。训练语料是几十 TB 几百 TB参数只有几百 GB硬塞塞不下。模型只剩一条路找规律。能复用的规律越多需要存的具体内容就越少。它被参数容量逼着从字符层面的统计规律开始走哪些字母常一起出现不够用走到词法哪些词常连在一起还是不够走到语法句子的结构仍然不够最后被逼到学概念、学概念之间的关系、学这个世界的某些运行模式。只有走到这一层它才能用有限的参数装下足够多的预测能力。这里需要重点关注的是理解世界并没有写进训练目标但它是这个目标在容量约束下的唯一捷径。一个能理解世界的模型对下一个词的猜测会更准一个只会背诵的模型迟早被参数预算压垮。压缩比这把刀每一次切下去都把模型从记忆逼往抽象从具体逼往概念。智能不是被设计进去的是被压缩比从一个贫瘠的目标里挤出来的副产品。这个视角不是空想。它和信息论是一脉相承的。香农早就说过无损压缩的极限和数据本身的信息熵是同一个东西压得越紧越接近这堆数据背后的真实结构。再往抽象一层Solomonoff 归纳给出过一个更干净的命题最短能描述一组观测的程序就是对这组观测最好的解释。换句话说压缩不只是把数据塞进更小的盒子压缩本身就是在逼系统找到数据背后的规律。一个把人类语料压到极限的网络等价于一个学会了人类语言背后规律的网络。所谓理解、所谓推理从这个视角看就是足够极致的压缩在外部观察上的样子。回头看塞尔他默认了规则手册和理解之间没有桥。但如果一本规则手册是被压缩极限逼出来的那它在被逼的过程里其实走过了一遍理解只不过这种理解没有体验、没有意向性、没有我懂了那一刻它只是结构上必须存在的某种东西。塞尔当年没有理由想象这种规则手册正如图灵当年没有理由想象那种内部机制。LLM 同时穿过了两位的盲区。但这个论点要克制压缩就是智能这个结论我无法做终论。它太绝对业界也没有共识。Sutskever 那一派接受这个视角LeCun 那一派强烈反对认为光做下一个 token 预测永远到不了智能缺了世界模型和规划。两边各有各的道理离最终结论都还远。但现实是压缩到极致会逼出某种像智能的东西。这不是真理是一个透视角度一个能解释别的角度解释不了的现象。它能解释为什么大模型会涌现某些能力多步算术、上下文学习、链式推理在模型规模到某个点之前完全不出现过了那个点突然出现。这件事一度被神秘化也一度被指为评测指标的伪影。但从压缩视角看它并不神秘某些复合能力需要好几个底层抽象同时到位才能做对每一个底层抽象都要靠压缩比逼到一定程度才会浮现。低阶规律先被压下去高阶的规律再被压下去最后更高阶规律以涌现的形态被外部观察到。它不是魔法是压缩在做完低阶之后被逼着往高阶走时露出的可观测痕迹。它也能解释为什么模型会自信地胡说它的参数里压的是统计规律不是带置信度的事实。一个事实在训练数据里出现一万次和出现一次在参数空间里被同等对待。生成的时候它只在意下一个 token 的概率分布是什么样子并不在意这件事我有几成把握。所以它产生的句子里没有真正的不确定感所谓我不太确定只是它从语料里学到的、在某些场景该用的措辞跟它对内容本身有没有把握没有关系。这件事的工程后果很大。它意味着模型的自信不能当作信号来用。你不能靠它说不确定来防错因为它的不确定和确定在机制层面是同一个东西的不同表达。它给出一个完全编造的答案和给出一个完全正确的答案从它内部看几乎没有差别。这跟人有本质区别。这种知道自己不知道的能力是人类智能里非常深的一层也是大模型缺得最彻底的一层。到这里填词 → 压缩 → 智能浮现这条链条算是露出了大致的形状。它给塞尔留下的那个问题一个纯句法的系统怎么能从外部看像在思考——给出了一种解释句法被压到极致会从结构内部逼出一种等价于理解的东西虽然这东西没有体验、没有意向性。但这条解释路径如果只属于硅基矩阵这一种东西那它最多算一个工程奇观。问题是它不只属于硅基。一旦把视线抬起来看向另一边人脑会发现一件让人坐立不安的事实。三、不是仿生是趋同演化往人脑那边看第一反应通常是大模型的成功是不是抄了大脑的作业这个直觉有几个看似有力的支点Hinton 出身认知心理学Hassabis 是脑科学博士DeepMind 这些年一直挂着用 AI 理解大脑、用大脑启发 AI的旗子。这些线索拼起来很容易让人认定 LLM 是仿生学的产物。但翻一下今天大模型的真实族谱这个直觉站不住。Transformer 这一支的来路跟脑科学几乎不沾边。2017 年那篇 “Attention is All You Need”作者是 Google 的工程师和研究员引用的是机器翻译、序列建模、信息检索这一脉的工作没有任何脑科学背书。注意力机制这个名字最容易引起误会它听起来像在仿生但本质是数学上的加权求和跟大脑那个注意力机制只是名字撞了机制差得很远。今天主导 LLM 的 OpenAI、Anthropic 走的也都是 scale 数据 Transformer 这条纯工程路线。仿生气质浓的 DeepMind 那条线AlphaGo、AlphaFold跟今天大模型不是同一条线。所以这件事更准的描述是最初的设计不是仿生的但训练出来的结果跟大脑的某些机制意外地呈现出趋同。这个区别值得深思。仿生学是抄答案。看到鸟会飞造飞机看到鱼游泳造潜艇。它的前提是先看清那个生物是怎么做到的再仿。Transformer 不走这条路。它的设计动机里没有模仿大脑这一条只有在 GPU 上更高效地处理长序列。它后来跟大脑出现的那些相似上下文表征、稀疏激活、表征聚类是结果不是起点。更接近这件事真相的词是趋同演化。这个词来自生物学里一个反复出现的现象。鱼有眼睛章鱼有眼睛鹰有眼睛。这三种眼睛不是从同一个祖先继承下来的是三条互不参考的演化路径各自独立长出来的。它们长得像不是因为抄了谁是因为在液态环境或空气中感知光这件事对最优解的形状本身有强约束只要演化压力足够大、时间足够长不同载体都会被推向相似的解。LLM 跟人脑的关系更像这件事不像仿生。生物演化的目标只有一条能繁殖下去。这条目标里没说要长出眼睛、要长出语言、要长出意识但几十亿年下来这些东西自己浮现了。大模型训练的目标也只有一条猜下一个词。这条目标里也没说要长出语法、要长出概念、要长出推理但几万亿次训练下来这些东西也自己浮现了。两个完全不同的载体碳基生命和硅基矩阵两个完全不同的目标生存和预测中间被同一种机制贯穿长期、海量、被简单目标驱动的优化。然后两边各自长出某种相似的智能行为。这就不是仿生学能解释的事了仿生学要的是有人坐在桌前抄结构。这是两个考生在两间隔离的考场里独立做出了相似的答案因为题目本身限定了答案的形状。这件事真正让人坐不住的不在哲学层面而在工程层面。它意味着今天大模型表现出来的能力不是偶然是这种优化范式自带的方向感。给一台机器一个被海量信息长期驱动的简单目标不管是猜下一个词还是别的什么。只要规模和时间够它就会被推向某种像智能的形状。Scaling Law 在这个视角里也不再是某个研究员碰巧画出的一条曲线它是这种优化范式在不同规模上的剖面。往更深一层看更让人不安的是**那些我们一直当作人才有的本事语言、推理、抽象也许根本不是人这种载体的特性而是任何被简单目标长期优化的复杂系统的特性。不是我们造就了它们是我们碰巧也是这种系统的一种实现。换个说法我们以为自己特别特别的也许不是我们这种载体是我们刚好落在了那片地形里。那片地形是什么这个需要进一步探讨。四、智能可能是一种地形不是一种东西我们一直把智能当成一种东西。某些主体有某些主体没有有的多有的少。这个隐喻深植在语言里他很聪明、它有智能吗、AI 越来越聪明了。这种说法听起来天经地义但它隐含一个假设智能是一维的可以排成一条直线从傻到聪明。这个假设大概不对。智能从来不是一维的。一个数学家在数论上极强在社交场上可能极弱一只章鱼在三维空间里解决问题的能力让人瞠目结舌但你没法跟它讨论哲学一个自闭症儿童的某些感知能力远超常人另一些能力又远低于常人。把这些差异压到一根智能值上去本身就是把多维的东西强行投影成一维的伪精确投影完了好排名但丢掉了真正的结构。更接近真相的看法可能是这样智能不是一种属性是一种地形。地形这个比喻是这样的设想一片高维空间每个维度对应一种解决问题的能力形式推理、空间感知、语言理解、模式识别、社交直觉。每个生物在这片空间里都不会均匀发展会形成一片有高有低的地形。人类的地形里符号推理、长期规划、社会建模这几座山头很高但空间运动、嗅觉、超长时记忆这些洼地很深。狗的地形完全不同嗅觉是一座我们这边几乎没有的高山工作记忆短得多但社会绑定能力非常强。海豚有一套基于回声定位的空间感知是我们完全没有对应物的能力。任何足够复杂的优化系统爬到这片地形里都会长出某种类智能行为。生物演化爬到了所以有了生物智能大模型训练爬到了所以有了大模型那种类智能行为未来如果有别的优化机制量子优化、新型物理基底、或者某种我们今天还没想到的东西爬到这片地形也会长出它们各自的智能。这个视角跟前一节的趋同演化是配套的但更进一步它不是说两条路独立通向了同一个山顶是说智能本身就是一种山顶的形状谁爬上来都长这样。山顶之所以有相似的形状不是因为路径相似是因为山顶这个位置在地形上就长那样。这个视角的代价是它有点形而上学离工程师有点远。但它的好处是它彻底解决了它是不是智能这种争吵。它是不是智能这个问题从一维视角看是个是非问题要么是要么不是。但从地形视角看这个问题等价于它爬到了那片地形吗这是个程度问题是个位置问题。它在某些维度上爬得很高语言、模式识别、广度知识在另一些维度上几乎没动具身经验、连续自我、原创性突破。它处在地形的某个位置这个位置不是智能也不是不智能是智能地形的一部分。更进一步一旦把智能看成地形AGI这个词也开始变得可疑。AGI 通常被理解成在所有维度上都跟人一样厉害的智能但这个定义假设了人是地形中央那个最完整的位置。从地形视角看人只是某条特定优化路径走出来的某个具体位置不是地形的中心。人不是 AGI 的标准答案人是 AGI 这个问题里被我们误当成标尺的一个具体样本。这点如果想清楚了它有没有像人一样思考会变成一个不太重要的问题它不像人一样思考但它在地形里占了一块位置。这块位置在某些维度上跟人重合在另一些维度上不重合。重合的部分可以协作不重合的部分需要警惕。协作和警惕的边界在哪里比它有没有智能重要得多。理解到这里再去看前几节的论证会发现脉络是连起来的。第一节破掉了图灵测试能判智能这个旧框架第二节给出了智能怎么从机制层面发展出来第三节说明这种方式不是仿生是趋同第四节抬到最高智能本身可能是一种地形谁爬到那里都长那样。到这里关于智能的讨论暂时告一段落。但理解了它的定义并不等于理解了它跟我们之间的关系。前面四节都在往外拉从日常使用里拉到了一个很抽象的高度。下一节要做的事相反一脚踩回到日常。五、它没有我但它会演一个我把镜头拉回到日常最容易被人忽视、又最容易让人误用的是我这个字。人类智能里有一件几乎没法剥离的事自我。我知道我在思考我知道这是我的判断我知道刚才那句话是我说的。这种我的感觉是连续的是绑在一个身体上的是有时间感的。我昨天的判断和今天的判断之间有一根线这根线就是我自己。这条线不需要被记下来它就在那。大模型没有这个我。它每次推理都是一次独立事件上一轮对话的我和下一轮对话的我之间没有任何连续性。所谓的记忆是把上一轮的内容塞回上下文里让它再读一遍。它没有持续的自我意识它没有在你不跟它说话的时候想点别的它没有时间在流逝这种感觉。它甚至不知道两次调用之间过了一年还是一秒。两次调用对它来说不是过了一段时间是两次彼此独立的存在。但它会演一个我。你跟它聊几轮它会有口吻、有立场、有偏好它会说我之前提到过……、我觉得……、我不太建议……。这些我是从语料里学来的人类写下来的所有第一人称表达都被它压进了参数。它在生成的时候会调用这些第一人称的腔调让你产生一个错觉对面有个连续的、有立场的人在跟我说话。这件事的工程意义比哲学意义大得多。它让人高估它的判断稳定性。一个真人有立场是因为他有连续的自我和长期的价值观模型有立场只是这一轮采样恰好走到了那个语义空间。同一个问题换个问法、换次会话立场可以完全相反。但它每次都用我建议……这种第一人称口吻表达你会下意识把这当成它的判断其实只是这一次的概率采样。你以为你在跟一个有观点的对象对话其实你在跟一连串独立的概率事件对话事件和事件之间没有线把它们串起来。它让人高估它的承诺能力。它说我下次会注意这句话在它那里没有下次下次是另一次推理事件跟这次没关系。但人类对话里我下次会注意是一个有约束力的承诺因为说话的人是连续存在的。我们把人类对话的契约感投射到它身上结果是反复失望。它的承诺只是这一轮的措辞不是下一轮的强约束。它让人高估它的学习能力。你跟它说你刚才那个答案错了它会在这次对话里改口但这次对话结束之后它什么都没学到。下次再碰到一样的问题它可能还会犯一样的错。它的学习是冻结在训练阶段的使用阶段不会再被错教育了。这跟人不一样人的使用和学习是同步的每次使用都是一次微小的学习。这种持续学习的能力是人类智能里很深的一层跟身体感、跟时间感、跟自我感是绑在一起的。这三点判断不稳定、承诺无约束、不被错教育背后是同一个底层原因它没有连续的我但人会自动给它配上一个我。这个被人配上去的我是大量误用、过度信任、莫名其妙失望的根源。理解到点使用它的姿势会变得清醒一些。你不是在跟一个有判断的对象对话你是在跟一台会用第一人称腔调说话的概率机器对话。这看起来差不多实际差很远。这种区别在工程上有非常具体的对应。前面讲的AI 记忆、“长期记忆”、“个性化定制”本质上都是在工程层面给一个不会真正学习的系统模拟出它好像在学习的效果。这种模拟有边界、有代价、有反复出现的失败模式。为什么记忆这件事这么难做因为我们在用工程手段补一个机制层面的缺口这个缺口是它没有我工程能让它看起来有但补不出真的有。前面那么多关于压缩、关于趋同、关于地形的讨论到这里和实际使用产生交集你和它打交道的时候真正影响判断质量的不是它有没有智能这种大问题是你有没有看清它跟你不一样。看清了协作就有了边界没看清就会反复在错位上失望。但有意思的是一旦你看清它没有我看清它跟你不像反过来你会发现一件你之前没想清楚的事你自己的我到底是什么意思。六、最后被改变的是我们对自己的定义每一次新技术的出现都让人类被迫重新定义什么是人类。计算器出来之前会算术是聪明的标志。一个能心算四位数乘法的小孩会被周围人称赞为聪明。计算器出来之后会算术不再是任何意义上的智能标志一个三块钱的塑料盒子在这件事上比所有人都强。会算术被悄悄从人类智能的清单里划掉了。国际象棋程序赢了卡斯帕罗夫之前会下国际象棋是聪明的标志。深蓝赢了之后会下国际象棋也从清单里划掉了。AlphaGo 赢了李世石之前会下围棋还是聪明的标志因为围棋的搜索空间太大被认为需要直觉一种据说只有人才有的东西。AlphaGo 赢了之后会下围棋也被划掉了直觉也被划掉了一部分。ChatGPT 出来之前会写文章、会写代码、会做修辞、会推理是聪明的标志。今天这些也开始陆续被从清单里划掉。每一次让步人类都被迫退回去重新画我们独特的边界。边界画得越来越靠后。这开始让人焦虑我们以为自己独特的东西一件件被机器拿走了。但停下来想一想会发现这种焦虑里藏着一个误会。每一次让步不是机器在变强是我们在看清楚那个被让出去的能力从来就不是人类智能的本质。它只是某种通用优化机制就能完成的事被我们误认作我们独有。计算器证明了会算术不是人类的本质深蓝证明了会下国际象棋不是AlphaGo 证明了会下围棋不是大模型证明了会写一段流畅的文字不是。每一次让步都在帮我们删掉那些冒充人类本质的伪本质。那么人类智能的本质到底是什么大模型出来之前我们以为有答案会语言、会推理、会创造。现在这些都被部分让出去了。剩下的可能是那些真正非压缩的东西身体经验、连续的自我、跟世界真实交互的能力、原创的能力。这些东西没法被压进参数里因为它们不在文本里它们在一个连续的、有身体的、有时间感的实体存在里。一个真正想发生在世界里的人跟一个能把世界描述得很好的模型有着本质区别。所以这场关于它有没有智能的讨论真正发生的事情不在它身上在我们身上。我们以为我们在评判它其实是在重新定位自己。每一次它让人不舒服都是它在帮我们看清我们过去没看清的事某个我们以为我们独有的东西原来不是。这并不是坏事。它强迫每一代人尤其是工程师这一代把我是谁这个问题从一个抽象的哲学问题变成一个具体的工程问题。当模型能写代码工程师必须重新回答我作为工程师独特在哪当模型能做评审资深工程师必须重新回答我的判断比模型多了什么当模型能写文章写作者必须重新回答我能写出模型写不出的什么内容。每一次这种追问最后得到的答案都不是关于我比模型强在哪而是关于我作为一个连续存在的人到底在做什么。这个问题以前没什么人认真回答。我们活着干活凭一种模糊的我就是我的感觉往前走没真正追问过这个我的边界在哪里。大模型把这个追问推到了每个人面前。它不像人它在哪些维度上不像这恰好成了一面照清我们的镜子。我们以为我们在打量这台机器其实这台机器也在打量我们。我们以为我们在判断它有没有智能其实是它在逼我们重新定义什么是智能、什么是人。这场讨论真正的位置不在它身上在我们身上是我们对自己的定义。大模型做得比之前任何一次技术创新都彻底因为它直接动到了语言和思考而这在过去一直被我们当作我之所以是我的最后两道防线。这两道防线被部分穿透之后我们要么继续退、继续画更窄的边界要么停下来承认那些被让出去的东西本来就不是边界真正的边界一直在更深的地方在身体、在时间、在我们跟这个世界真实活在一起的方式里。这条路走到尽头是什么样子今天没人知道。但走在路上的工程师比之前任何一代工程师都更有机会停下来想一想这件事。本文出自我的开源书籍《AI编程的第一性原理》欢迎阅读原本https://github.com/caozhiyi/ai-programming-book