Anthropic 前两天做了一件反直觉的事——删掉了 Claude Code 80% 的 system prompt。从 65K tokens 砍到 13K 左右表现反而更好。你可能也注意到了AI 编程工具跑了一年多各家 agent 的 system prompt 从几百行膨胀到几千行。但 Anthropic 这次不是往里加东西而是直接删。本文从实操角度拆解Anthropic 为什么敢删、怎么删的、以及你能从中借鉴什么。一、背景为什么 65K 的 Prompt 反而成了累赘Claude Code 的 system prompt 原来有 65K tokens——相当于一份 4-5 万字的工程手册。问题在于这套 prompt 是为上一代模型写的。当 Fable 5 上线后情况变了。据 Anthropic 研究员 Tariq Shihipar 在 WF2026 上的分享Fable 5 比其自身的示例更有想象力。过多的示例反而成了限制。一组数据很说明问题OpenAI 的 GPT-5.5 medium 用 2 万 token 就能完成的任务Anthropic 的 Opus 4.8 需要 5 万 token。这不是 Opus 不行是它的 prompt 里塞了太多「保险条款」。反过来如果你的 agent 每个请求都烧掉 5 万 token一个月跑下来算力开支就是薪资的 2.3 倍——这是 Anthropic 内部统计过的数字。所以结论是新模型不需要那么多约束。你的 prompt 不是在帮它而是在拖后腿。二、实操拆解Anthropic 到底删了什么分三层来说每层你都可以在自己的项目里照做。第一层删除过时的规则针对旧模型的「不要做 X」「先分解再执行」等约束在新模型上反而是噪音。Anthropic 删掉这些规则后代码准确率反而提升了——模型不需要在回答之前先查一遍 65K 的规则库来决定输出格式。操作建议打开你的 system prompt找到所有以「不要」「请先」「注意」开头的句子。逐条问自己「如果删掉这条模型会犯错吗」如果不会删掉。第二层合并冗余示例bash 命令的输出格式原来有六七种不同用法每种配一个完整样例。砍完后只保留一种模板剩下的让模型自行推断。操作建议把同类示例合并到 1-2 个去掉重复的变体。模型的泛化能力比你想象中强得多——你不需要给它看所有排列组合。第三层移除「保险条款」那些「如果遇到 X 情况请执行 Y」的条件分支Prompt 越长就越多推理路径越长token 消耗越大。而且大多数条件分支在真实任务中根本碰不到。操作建议运行一次 prompt 审计统计你的 prompt 里有多少条件分支。删掉那些在实际测试中从未被触发的分支。最终效果Claude Code 的 system prompt 从 65K 砍到 13K 左右。作为对比有个叫 Pi 的 agent 工具启动上下文不到 1K tokens——不是砍了 80%是压根没长起来。Pi 的哲学是让模型用自己的能力而不是用 prompt 替代模型。三、实操再进一步Caveman 插件——输出侧的优化删 prompt 是输入侧的优化。输出侧有个叫Caveman的插件专为 Claude Code 设计也支持 Codex。它的核心功能是减少 65-75% 的输出 token但不伤代码、文件路径、函数名这些精确内容。安装方式# 通过 Claude Code 插件系统安装claude pluginsinstallcaveman# 或手动克隆gitclone https://github.com/caveman-ai/claude-code-plugincdclaude-code-pluginmakeinstall核心原理去掉寒暄、模糊措辞和过渡语# 正常输出~80 tokens 现在我来分析一下这个函数……首先需要理解它的参数…… 接着我会检查它的返回类型……最后再来看它的异常处理…… # Caveman 模式~30 tokens 分析函数 check_auth。参数userId str。返回bool。 异常ValueError if token expired。信息量几乎一样但 token 少了一半以上。OpenAI 的工程总监也贡献了代码到这个项目。效果对比# 开启 Caveman 前后对比100次请求统计# 关闭平均输出 485 tokens/次# 开启平均输出 158 tokens/次# 节省67.4%Caveman 的做法和 Anthropic 删 prompt 是同一个方向对抗「AI 写废话」问题。模型输出被调教成了「完整句子 过渡语 礼貌表达」的风格剪掉这些就是纯利润。四、进阶思考压缩 reasoning token 才是真正的大头输入侧砍 prompt输出侧砍寒暄还有一个更大的坑内部 reasoning token。模型在生成答案之前会内部推演十几步每一步都在消耗 token。更关键的是前一步的思考结果会变成后一步的输入——这就像叠罗汉前一层的 token 被链式放大。# 完整英语推理~200 tokens/步 我还需要分析这个函数的边界条件。首先检查输入参数是否为空 然后验证返回类型是否匹配。接下来要考虑异常情况…… # 压缩推理~50 tokens/步 params: {x, y} → 边界条件检查 → 返回类型验证 → 异常处理有分析指出OpenAI 模型在内部推理时已经用了压缩过的工程速记。所以真正的方向是不仅砍 system prompt还要让模型自己学会用更少的 token 思考和输出。Caveman 和 Anthropic 的 prompt 瘦身都只是第一步。五、给你的实操清单5 步 Prompt 降本指南你可能在想这件事和我怎么落地以下是你可以今天就开始做的 5 个步骤步骤 1做一次 prompt 审计把你的 system prompt 拆出三部分类别说明去留判断基础规则任务定义、输出格式保留精简到最少示例few-shot 样例每类保留 1 个删掉变体保险条款条件分支、边界提醒逐个测试未触发即删除判断标准如果删掉这部分模型还能不能完成 90% 的任务能就删。步骤 2按比例压缩基础规则~100 tokens→ 业务逻辑模板~200 tokens → 动态指令~50 tokensvia context 注入 总长 350 tokens和 65K 差了两个数量级步骤 3安装输出优化工具如果你在用 Claude Code 或 Codex装一个 Caveman 试试。减少 65-75% 的输出 token一天跑几百个请求一个月下来省的就是可观数字。步骤 4监控 token 消耗设置一个简单的监控脚本统计每日 prompt 输入和输出 token 量对比优化前后的变化。token 就是成本量化才能管理。步骤 5定期重新评估每季度或每次模型版本升级后重新做一次 prompt 审计。新模型可能不再需要你写在上一代的规则。任何一条「因为上次遇到过所以加上的 prompt 规则」都应该设定过期时间。总结真正的 AI 工程优化不是一个 prompt 写得越来越厚而是模型越来越强我们写得越来越薄。Anthropic 的案例证明砍掉 80% 的 prompt 不仅没有降智反而提升了表现。这不是个例而是一个可以复用到你自己的项目中的方法论。打开你的 prompt 文件找到那些出于「保险」心态写下的陈年规则逐条问自己如果删掉这部分模型还能不能完成 90% 的任务如果答案是「能」就删掉。记住AI 降本的核心思路不是换更便宜的模型而是让现有模型用更少的 token 产出同样甚至更好的结果。从今天开始做一个 prompt 断舍离——砍掉冗余留下精华。参考来源WF2026 Tariq Shihipar 演讲 / InfoQ 深度分析 / Caveman 项目 / Deep SWE 评测对比