AI成本失控,Claude烧Token换体验,OpenAI压Token提效率,降本先砍谁?
AI成本失控Claude与OpenAI的不同路线这是正在发生的现实。根据最新数据显示Anthropic自家公司花在算力上的钱也已经达到其薪资支出的2.3倍。按照一名高级工程师22.4万美元的完全成本来算Anthropic每位工程师每年对应的算力支出约为51.5万美元。也就是说人还没模型贵。在这种账单面前连Claude自己也不得不开始省token了。Token末日AI行业范式转变最近业界又有了一个新词Token ApocalypseToken末日。从token maxing到token apocalypse预示着AI行业真的发生了一种非常大的范式转变。今年三四月份大家还在炫耀自己用了多少token甚至把它当成一种排行榜。但使用AI并不自动意味着省钱于是大家开始更强调单个token的成本。更微妙的是大模型还在扩大很多原本根本不需要用AI的工作。我们现在PDF不想自己读了长文不想自己看了所有东西都要让AI总结。或者把这些东西用AI转成幻灯片再丢给别人对方可能再用AI读这些幻灯片......AI像是在给一些本来就很虚的工作再强行注入一层价值同时也把账单悄悄推高。大公司严控AI使用成本如今成本失控已成常态。亚马逊、Adobe、Atlassian、花旗集团等公司开始对AI使用实施严格管控限制模型等级一些公司的员工被禁止使用Claude Opus等高端模型被迫降级到更便宜的版本设定个人限额Uber为每位工程师每月设定了1500美元的token上限彻底停用权限花旗银行等机构已完全限制对高级AI工具的访问未达使用目标的员工甚至会被撤销企业账户。在此之前Uber的CTO曾坦言公司在几个月内就用完了全年AI预算。Walmart最近也停止了一些工具的使用。大公司要么在四处找省钱办法要么直接给token浪费踩急刹车。因此员工收到的信息极其矛盾一边是“AI能让你效率翻100倍必须用”一边是“别再把公司用破产了”。这也是AI工具第一轮普及里最典型的问题工具被推出时并没有足够护栏来阻止公司在大语言模型上花掉数百万美元也没有机制提醒团队token正在迅速烧光。不管是聊天机器人还是编码工具很多产品先把“能用起来”摆在第一位成本治理、使用配额、模型分级和上下文管理都被放到了后面。Claude Code烧token换“高产”错觉但Claude Code本质上不是效率工具而是一个营销工具。它的设计目标很明确让你感觉自己在高产。BorisClaude Code的项目负责人在做这个产品时最初的思考是“如果模型变得足够聪明代码会变成什么样我希望如何使用这些东西”——出发点不是“如何帮开发者省token”而是“如何展示模型的聪明”。Anthropic愿意为这种“感觉”烧掉大量token——不管是你的钱还是它们自己的钱。五分钟花掉200美元对Claude Code来说不是事故是设计。它的底层逻辑是能多烧token解决的问题绝不找更省token的办法。所有sub - agent、所有花哨的UI动画、所有冗长的reasoning trace都不是为了效率而是为了让你盯着屏幕时觉得“这模型真聪明真能干”。这背后是一个精心设计的营销闭环你烧掉大量token换来“高产”的感觉于是觉得Claude好用然后继续用它。Anthropic甚至愿意自己承担大量token成本来换取这种情绪上的认同。这也是为什么它们的桌面应用明显投入不足——Claude Code的目标从来不是做一个好工具而是成为Anthropic模型能力的最佳展示窗口。而恰恰是这种烧token换体验的设计哲学让Claude在token效率上被OpenAI甩开了。OpenAI一直在拼命压token。从reasoning trace的压缩到模型本身的效率优化它们的哲学是用更少的token干同样的活。Codex 5.5就是最好的例子。尽管像Fable 5这样的模型很智能但与其他模型相比它的效率不算高Deep SWE的这张图很能说明问题。如果将同批模型放一起对比则更明显GPT - 5.5 medium只用了2万个token就拿到了惊人的分数而Opus 4.8用了5万个token得分反而更低。这就是两条路线最直接的写照行业在恐慌Claude在烧OpenAI在省。而接下来的问题就是——既然要降本第一个该砍的是什么答案是那些堆了太久的提示词。Claude Code的Prompt债堆得越多欠得越多在最新的演讲中Anthropic表示他们已经删掉了Claude Code 80%的系统提示词。Anthropic技术团队成员Tariq Shihipar解释说这反映出AI模型引导方式正在发生一次根本变化——过去人们认为指令越多、例子越多模型表现就越好但现在这个逻辑不再成立。新模型Fable 5比它们自己给的示例更有想象力示例反而成了限制。这当然有营销成分他吹嘘了一把Fable的能力“示例反而容易限制模型因为它实际上比我们给出的示例更有想象力”。但一个事实绕不过去连Anthropic自己都开始对system prompt下刀了。那么为什么以前需要那么多prompt过去一两年AI Coding圈形成了一套惯性思维上下文越大越好工具说明越多越好system prompt越完整越好。模型不知道项目怎么组织写Agents.md。模型不知道工具怎么用写tool descriptions。模型不够主动写行为引导。模型不够稳定继续往system prompt里加约束。不可否认system prompt曾经是AI Coding工具的核心竞争力。对LLM的prompt做一些小调整就可能带来显著的性能提升。如果同一个模型在Codex、Cursor、OpenCode和Copilot里的感觉不一样那几乎肯定是因为prompting上存在细微差异。这也是为什么Cursor曾花大量时间测试system prompt做A/B testing针对不同模型微调提示方式。与在Claude Code里使用Opus相比Cursor的harness能显著提升模型表现一些benchmark测到的提升甚至高达10%到30%。差别核心往往就是那几段prompt。但问题是只要prompt有用团队就会不断往里加东西。某个模型喜欢乱用工具就加一段规则某个模型不够主动就加一段鼓励某个模型搜索太多就补一段限制某个模型不理解项目上下文就再加一个markdown文件。每一次增加都有理由但长期堆下来system prompt开始变成一个巨大的常驻上下文包袱。问题在于system prompt不是免费的。它每次调用都要被读入、计费、占上下文。Claude Code把所有工具和功能内置进去之后system prompt一度膨胀到65,000个token即便关闭大部分功能也还有12,000个token。换句话说模型还没开始写一行代码就已经背上了一本说明书。对比来看Pi启动时上下文不到一千个token。更麻烦的是prompt债比代码债更隐蔽。代码老了通常会在改功能、跑测试、处理bug时暴露出来。Prompt老了却可能只是让模型悄悄变差。用户看到的是“Claude Code最近好像不如以前聪明了”或者“新模型没有宣传得那么强”但真实原因可能是旧的system prompt没有跟上新模型。当prompt从竞争力变成负担时Anthropic选择删掉80%也能进一步提升token效率。Claude的“废话税”多说一个字多花一份钱Claude Code的废话实在太多了。今年有一个叫Caveman的插件迅速走红专门解决这个问题。它的名字直译是穴居人意思是像原始人一样说话——不讲礼貌不加多余语法不放填充词只保留核心意思。Caveman save you token, save you money. Star cost zero.乍一看它听起来像个玩笑。但一旦理解你会发现它解决的是LLM里一个非常真实的问题废话太多、token太多、成本也不必要地变高。而它的起源正是针对Claude Code。“我是在4月初做出Caveman的因为那段时间我重度使用Claude Code并且注意到我的很多token花费都浪费在了不必要的文字上寒暄、模糊措辞、过渡语以及那些在agent loop里其实并不重要的闲聊式表达。”Caveman的创建者Julius Brussee说。Brussee的评测显示Caveman相比默认输出能减少65%到75%的输出token效果仍然超过普通的请简洁指令。它主要压缩的是周围的语言不影响代码、命令、路径、URL、函数名这些需要精确性的部分。据报道OpenAI的工程总监Shayne Sweeney也为该项目贡献了代码以支持Codex。更有意思的是OpenAI早就把这种语言模式应用到了思考环节。一些泄露出来的reasoning trace 不是对外显示的reasoning summary 让外界看到了端倪。内容不像普通英语更像压缩过的工程速记 Use core new nodes. Need infer. Need add VAE encode for images. Try. Try period.这些句子看起来很好笑甚至有点乱但它们的重点不在可读性而在token效率。模型在内部推理时不需要像对用户说话那样保持礼貌、完整和流畅。它只需要保留动作、对象、判断和下一步。换句话说只要最终答案是正常的模型内部完全可以用一种更短、更粗糙、更省token的语言完成思考以疯狂追求token效率。这甚至比在写Prompt环节更有用。压缩reasoning token的收益更大因为agent是多步执行的前一步的思考会变成后一步的输入。模型每少“想”一段省下来的就不只是当下这几个token而是后面整条执行链上的重复开销。这正是OpenAI和Claude路线上的一个明显差异。Claude一直更好聊也更像一个用完整语言思考和表达的助手。只要看看它的reasoning trace长很多就能猜到它可能是在用普通英语。它的输出和reasoning往往更长所以更依赖大上下文窗口来容纳这些内容。这也是为什么Claude默认使用100万token的上下文窗口。很多人以为这是因为它想装进更大的代码库但原因其实更简单Claude生成的东西太长了没有这么大的窗口装不下。它们甚至在compaction上也很差当你恢复旧线程时Claude会建议你不要保留完整上下文而是尝试compact。因为它们不会保留reasoning trace——事实上它们会在10到20分钟后清掉这些东西因为reasoning token效率太低不值得一直保留否则成本会荒谬到不可接受。而OpenAI模型的token上下文窗口大概是20万或更少但因为它们一开始就通过这种简短语言做到了压缩。一个值得品味的细节如果Anthropic修复了“废话太多”这个问题它们的收入会明显下降。如果开发者可以用模型完成同样的工作但生成的token更少那就是它们赚不到的钱。