“用Claude比发工资还贵?换!”耗时9个月,这家AI公司换上DeepSeek后,CEO直言:迁移工作量暴涨100倍,但一年省下数百万美元
模型能力或许已经不再是最大瓶颈真正让企业夜不能寐的开始变成账单。整理 | 郑丽媛出品 | CSDNIDCSDNnews这几年大模型行业的竞争几乎围绕着参数规模、推理能力和榜单排名展开谁的模型更聪明谁就能吸引更多开发者和企业客户但随着 AI Agent 进入实际生产环境越来越多公司发现模型再强如果成本无法控制最终也很难成为一门可持续的生意。最近一家名为 Lindy 的 AI Agent 创业公司就公开展示了这种变化其创始人兼 CEO Flo Crivello 宣布公司已经把生产环境中的全部模型流量从 Anthropic 切换至 DeepSeek V4——按照他的说法这一决定不仅为公司节省了数百万美元的推理成本而且在部分核心业务场景中模型表现甚至还出现了提升。消息一出很快在 AI 圈引发热议。一个被推理成本逼出来的决定简单介绍一下。Lindy 是一家专注于 AI Agent 的平台用户无需编写代码就可以创建自己的 AI 助手让其自动完成邮件处理、会议安排、CRM 录入、客户跟进、数据整理等各种办公任务。其创始人 Flo Crivello 也并非第一次创业。在创办 Lindy 之前他曾在 Uber 担任工程师和产品负责人后来又创立远程办公平台Teamflow并成功融资 5200 万美元。2023 年生成式 AI 浪潮兴起他将业务方向转向 AI Agent 并推出了 Lindy。与很多AI应用一样Lindy的核心成本并不是服务器、办公场地或者市场营销而是模型推理费用。今年 4 月Crivello 就在 X 上公开表示推理成本已成为公司最大的支出项目甚至超过了员工薪资总额。对于一家依赖 AI 持续运行的产品而言这个问题显然很严峻。而事实上类似情况正在整个行业蔓延● 不久前GitHub 宣布调整 Copilot 订阅模式将部分服务从固定月费转向按量计费。因为 Agent 式编程越来越普及用户一次性触发的推理请求数量大幅增长原本的订阅价格已经难以覆盖成本。● Uber 内部也面临类似困扰。由于大量使用 Anthropic 旗下 Claude Code 等 AI 工具公司原本规划给 2026 年的 AI 预算仅用了四个月便接近耗尽甚至引发管理层对于投入产出比的重新讨论。就在为此近期 Linux 基金会甚至联合谷歌、微软、IBM、Salesforce 等企业成立了 Tokenomics 基金会希望推动建立统一的 AI Token 成本标准。领取地址https://s.csdn.cn/4nPsOpDeepSeek 并不是 Lindy 的第一个选择尽管面临着推理成本难题但 Lindy 最终选择 DeepSeek并非一时冲动。按照 Crivello 的说法团队实际上已经为这次切换模型准备了很长时间“我们一直在寻找替代方案并评估各种开源模型大概持续了 6-9 个月。”过去一年里开源模型的发展速度让很多创业公司重新思考自己的技术路线。如果把时间拨回 2024 年很多企业对于开源模型的评价仍然是“差距明显”但到了 2025 年底至 2026 年情况已经发生巨大变化DeepSeek、Kimi、GLM 等一批中国模型持续刷新性能纪录而推理成本却远低于 OpenAI 和 Anthropic 等闭源模型。Crivello 曾透露Lindy 最初一度想把月之暗面的 Kimi 作为默认模型后来又认真评估过智谱 AI 推出的 GLM 系列模型。而最终他们将目光锁定在今年 4 月发布预览版的 DeepSeek V4 上。相比此前广受关注的 DeepSeek R1V4 进一步提升了通用能力和 Agent 任务表现并继续保持极具竞争力的价格优势。今年 6 月初在 Lindy 完成内部测试后一个让团队颇为意外的结果出现了不仅成本更低在某些关键业务场景中DeepSeek 的表现甚至超过了 Anthropic。比预想多出了“100 倍工作量”然而从 Anthropic 迁移到 DeepSeek远不像修改几行 API 代码那么简单——Crivello 后来在 X 上感慨“整个过程最终比我们最初预想的多出了 100 倍工作量。”很多人看到这里可能会疑惑既然都是大模型接口为什么迁移会如此复杂原因在于企业生产环境里的 AI 系统实际上是一整套高度耦合的工程体系。模型背后连接着 Prompt 工程、自动化评测系统、用户反馈机制、监控与观测平台、路由调度逻辑、安全与合规流程等等。而更换模型之后这些环节往往都需要重新适配。Crivello 透露团队进行了大量线上和线下评测同时还进行了所谓的“Vibe Eval”——即由真人主观判断输出结果是否符合预期验证 DeepSeek 是否真的能在真实生产环境中达到甚至超越 Anthropic 的表现。“我们做了大量评估工作然后逐步放量上线观察对用户留存的影响同时还需要不断调整 Prompt 以适配新模型。”对了有一点要注意Lindy 并没有选择自行部署 DeepSeek。他们采用的是美国推理服务商 Atlas Cloud 提供的 DeepSeek V4 服务。这样既保留了成本优势也避免了承担自建推理基础设施带来的额外复杂性。因此从结果来看Lindy 真正投入的成本并不只是模型迁移而是一次底层 AI 基础设施升级。所以DeepSeek 赢在哪里根据 Crivello 透露的消息目前 Lindy 最核心的业务之一是邮件处理。系统需要阅读用户收件箱内容理解上下文关系并按照用户过往表达习惯自动生成回复草稿。而恰恰是在这些高频任务上DeepSeek 给出了超出预期的表现——Crivello 表示“我们在一些核心用例上看到了令人惊讶的性能提升。”不过他也强调 DeepSeek 并非全面领先。在复杂工作流自动化任务上Anthropic 旗下 Claude Sonnet 目前仍然更强“在工作流自动化方面DeepSeek 还不如 Sonnet但这并不是我们最核心的业务场景。”所以虽然 Lindy 已把生产流量全部迁移至 DeepSeek但 Anthropic 并没有完全离开其技术栈首先Lindy 内部员工仍在大量使用 Claude因为 Anthropic 的 Max 订阅计划性价比依然很高。Crivello 坦言“如果不是 Max 订阅计划我们可能也会换掉 Claude。”其次在面对复杂任务时Anthropic 可以充当“保险丝”的角色。此前有用户询问未来 Lindy 是否可能重新回到 AnthropicCrivello 给出的回答是“当系统检测到任务失败时我们大概率仍会升级调用 Opus。”不过他同时强调这种情况只占极小比例。一句话概括Anthropic 从过去 Lindy 的默认选择变成了一个备用模型。但 Crivello 也补充道未来 Anthropic 若是推出更强的新模型并大幅降低价格他将重新成为其客户“如果 Anthropic 下一代模型足够有竞争力我们很可能会重新用回它的产品。”省下的钱究竟值不值得截至目前Crivello 并未公开具体节省金额只说“节省了数百万美元”。不过对于一家推理成本已超过工资支出的AI创业公司来说即便只是节省 30%-50% 的模型费用这也是一笔可观的资金了。而如果把 Lindy 的决定放到个行业背景下去观察会发现它其实代表着一种越来越明显的趋势过去几年大模型市场基本由 OpenAI 和 Anthropic 主导企业选择模型时更关注能力上限但随着模型之间的差距不断缩小成本开始成为新的决策因素。来自 Vercel AI Gateway 的数据就显示在 2026 年 5 月仅一个月时间里DeepSeek 在平台 Token 调用量中的占比便从不足 1% 飙升至 17%但其对应的收入占比仅约 1%——原因很简单DeepSeek 太便宜了。于是一种新的市场结构开始形成一边是 OpenAI、Anthropic 等提供最强性能、最高价格的旗舰模型另一边则是 DeepSeek、GLM、Kimi 等性能越来越接近、价格却低得多的开放权重模型。对于 Lindy 这种每天消耗海量 Token 的公司来说问题最终变得十分现实如果能用更低成本获得 80%-90% 的效果那么为剩余那部分能力支付数倍价格还划算吗对此Crivello 给出的答案非常直接“对于像我们这样消耗大量 Token 的公司来说100%必须要这么做否则就是不负责任。”在他看来很多企业之所以还没有行动只是因为它们更习惯相信那些知名品牌。但未来几年或许企业将越来越不在乎模型来自哪里而更在乎最终效果和成本。参考链接https://runtimewire.com/article/lindy-deepseek-v4-anthropic-production-switchhttps://thenewstack.io/lindy-deepseek-anthropic-switch/