全球公司集体反省:小模型经济学兴起,AI成本大幅下降!
小模型经济学风潮兴起曾经Token管够的公司如今集体开始精打细算。最近美国Agent公司Lindy将100%的托管Agent流量从Claude迁移至DeepSeek V4此举可节省数百万美元推理成本迁移流量成本下降约90%。这并非个例一些美国开发者和中小公司正转向中国模型因其在大量日常任务上“够用且便宜”。据外媒报道Siemens、Renault、Orange、ChapsVision等欧洲企业也开始混用美国、中国、欧洲的模型。过去一年许多企业鼓励员工多用AI仿佛Token消耗越多越能证明公司“AI - first”。然而随着Token账单摆在眼前全球公司集体反省秉持“该省省该花花”的原则一场小模型经济学的风潮悄然兴起。Token最大化的反噬所谓小模型经济学即不凡事都依赖最贵的专家。过去企业接入AI往往默认使用最强模型写代码、做Agent都先上前沿模型。但前沿模型堪称Token碎钞机每多读一段上下文、多跑一轮Agent账单都贵得惊人。于是人们开始思考是否每件事都需使用最贵的旗舰模型结果发现将简单任务分配给便宜模型复杂任务交给贵模型效果也不错。这一省钱“小妙招”逐渐被称为“小模型经济学”。这套Token经济学并非凭空而来而是被高额账单逼出来的。Uber就是典型案例该公司曾鼓励工程师多用AI编程工具Claude Code、Cursor等工具被视为提效神器。但仅几个月Uber就耗尽全年AI编程预算。Uber COO Andrew Macdonald后来公开质疑称很难将Claude Code使用量与“多交付25%有用消费者功能”直接挂钩。随后公司给员工设定Token限额每人、每个工具每月1500美元Token花费超额需获批。亚马逊的情况同样荒诞。此前为响应公司AI号召员工自发创建KiroRank排行榜比拼Token使用量。结果有人发现漏洞无需真解决问题派Agent做无意义的事也能提升排名。高级副总裁Dave Treadwell只能亲自喊话“别为了用AI而用AI”排行榜随后下线。Meta内部也曾搞过类似活动名为“Claudeonomics”但同样遭遇困境。目前大公司纷纷收紧Token用量。微软被曝大量取消Claude Code直接许可转向GitHub Copilot CLICopilot从固定订阅转为按量计费。Meta也从“Token最大化”转向“Token最小化”策略据外媒报道Meta计划限制员工Token使用因其内部AI使用成本预计达数十亿美元级别。这些变化表明企业已意识到Token花费与有用产出不成正比乱烧Token的时代结束了。小模型经济学变成一门生意仅靠企业自行削减预算还不够真正让“小模型经济学”成立的是供给侧的变化便宜模型开始变得好用。DeepSeek V4系列就是典型代表同样的工作DeepSeek V4 Flash价格比Anthropic模型低约20 - 50倍。在Ramp的企业软件采购趋势榜上DeepSeek一度排名第一。Vercel的AI网关数据更惊人在Vercel AI Gateway的生产流量中DeepSeek的Token份额一个月内从不到1%升至17%。连微软都在考虑用DeepSeek V4的微调版替代Copilot Cowork里原本运行Anthropic、OpenAI的位置。这催生出行业内心照不宣的分层逻辑不差钱或任务困难时依旧使用OpenAI、Anthropic的旗舰模型追求性价比时则选择DeepSeek、Kimi、智谱GLM、MiniMax等“够用且便宜”的模型。两条价格带并行按需分配。开源项目ClawRouter数据显示采用这种分层组合平均成本能从每百万Token 25美元降至约2美元。在这一逻辑下OpenRouter这样的模型路由公司变得有价值。OpenRouter不训练模型而是作为模型调度台帮助企业和开发者在OpenAI、Anthropic、Google、DeepSeek、Mistral等数百个模型之间进行调度价格、延迟、稳定性、上下文长度都是其考虑的调度因素。据外媒报道OpenRouter今年完成1.13亿美元B轮融资估值约13亿美元周处理Token量增长5倍至25万亿拥有800万用户。Vercel的数据显示大规模AI应用已非一个模型打天下。在Vercel AI Gateway上月请求量超过1000万次的团队平均会同时使用35个模型不同模型分别负责意图识别、检索、摘要、复杂推理等AI使用如同分工明确的流水线。此外LiteLLM、Helicone等工具将模型路由做成财务系统可按团队、项目、模型设置预算监控每个接口的Token消耗一旦Provider价格上涨或速度变慢就切换流量。与此同时云厂商也开始跟进AWS Bedrock的Intelligent Prompt Routing已能在同一模型家族里自动分配请求AWS内部测试显示在Claude Haiku和Sonnet之间做路由可在保持质量的同时节省48%到56%成本。在这样的产业变化下帮企业省钱的“小模型经济学”正成为一门新生意。企业如何落地虽然“该省省该花花”的道理大家都懂但企业真正落地时面临的是具体的技术问题这次请求应派给便宜模型还是贵模型这并非简单地将Claude换成DeepSeek而是要将一个AI任务拆分成多个小步骤。以客服Agent为例用户询问“我的订单到哪了”模型的工作流大致为先让便宜模型判断意图确定是查物流而非投诉或退货再用便宜模型提取订单号直接调用物流API最后用中等模型将结果润色成自然的语句。用户看到的仍是“您的包裹已到达杭州转运中心”但企业已减少大量昂贵的推理过程。AI编程也是如此coding agent无需每一步都使用最贵的模型读取目录、总结文件结构、生成简单测试、写PR摘要等可交给便宜模型大型重构计划、跨文件依赖分析、安全敏感代码审查等则交给Claude、GPT等强模型。从技术上看企业实现模型路由通常有几种方法。最简单的是规则路由如订单查询采用小模型加API法律问题直接使用强模型加人审。更常见的是级联路由先让便宜模型回答若格式校验、事实校验、置信度不通过再升级给贵模型。此外还有学习型路由系统根据提示词难度、历史表现、预算和延迟自动判断使用哪个模型。近两年这套工程化的方法已从工程师的经验之谈转变为正式的研究课题。例如ParetoBandit研究动态环境中的预算路由考虑模型价格变化、质量退化、新模型加入等因素系统如何在控制预算的同时在线调整路由Budget - Aware Agentic Routing专门研究Agent场景长任务中每一步都调用强模型在经济上不可行因此需在每一步决定是省钱还是使用强模型。当企业摒弃“Token管够”的幻想转向更务实的“小模型经济学”这恰恰是企业继续扩大AI使用的前提。