引言“为什么用很多 token少 token 也行。”这是每日一个开源项目系列的第150篇文章。今天的主角是caveman——一个让 AI 编程 Agent 用穴居人风格说话的 Skill平均节省 65% 输出 token代码内容字节精确不变。82,947 Stars。这是一个 meme 项目也是一个认真的工程工具。LLM 输出有一个默认倾向把简单的事说得很礼貌、很完整、很有铺垫。“非常感谢您的问题您遇到这个问题很可能是因为……让我来详细解释一下……”——这些话在对话里听起来友好但在编程工作流里是纯粹的 token 浪费。你要的是答案不是过渡句。caveman 的解法装一个约束告诉 Agent去掉填充词保留实质用短语而非句子——但永远不要碰代码、命令和错误信息。效果是 65% 的输出 token 削减答案更快账单更小而且有一篇 2026 年的论文说简短输出在某些基准测试上准确率反而高了 26 分。你将学到什么穴居人压缩的工作原理它裁掉了什么、保留了什么四个压缩级别lite / full / ultra / wenyan 各自的压缩幅度诚实的数字65% 是输出 token全会话节省为什么更小什么情况下反而亏完整工具集/caveman-compress压缩记忆文件的永久节省效果Caveman 生态系统五个相关项目各自解决什么问题前置知识使用过 Claude Code 或任意 AI 编程工具了解 LLM token 的基本概念输出 token 收费项目背景项目简介caveman 是一个跨 Agent 的 Skill/Plugin安装后告诉 AI 编程 Agent回答时去掉废话、用片段而非完整句子但代码、命令、错误信息一字不改。它解决的不是AI 答案不准确的问题而是AI 说话太啰嗦的问题。大型语言模型经过 RLHF 训练后有礼貌倾向——喜欢说当然、“让我来”、“这个很好的问题”、“如您所见”、“总的来说”。这些词在聊天场景里有价值在编程工作流里是噪声。项目由 Julius Brussee 创建网站caveman.so。作者/团队介绍作者: Julius Brussee主要语言: JavaScriptLicense: MIT官网: caveman.so项目数据⭐ GitHub Stars:82,900 Forks: 4,629 License: MIT 创建时间: 2026-04-04三个月内达到 8 万 Star主要功能Before / After正常 Agent69 tokensCaveman Agent19 tokens“您的 React 组件重复渲染的原因很可能是您在每次渲染循环中创建了新的对象引用。当您将内联对象作为 prop 传递时React 的浅比较每次都会将其视为不同的对象从而触发重新渲染。我建议使用 useMemo 来记忆该对象。”“每次渲染新建对象引用。内联 prop 新引用 重渲染。用useMemo包裹。”同样的修复方案三分之一的词没有技术信息丢失。┌────────────────────────────────────────────┐ │ 输出 token 节省 █████████ 65% │ │ 输入 token 节省 ░░░░░░░░░ 0% │ │ 技术准确性 █████████ 100% │ │ 氛围 █████████ 爆表 │ └────────────────────────────────────────────┘穴居人没有让 AI 变笨。穴居人让 AI嘴变小了。它压缩的是 Agent 说的话不是它知道的东西。安装一条命令自动找到机器上所有 Agent逐一安装# macOS · Linux · WSL · Git Bashcurl-fsSLhttps://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh|bash# Windows PowerShellirmhttps://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1|iex约 30 秒需要 Node ≥ 18跳过未安装的 Agent可以安全重复运行。单独安装到特定 Agent# Claude Code 插件方式claude plugin marketplaceaddJuliusBrussee/cavemanclaude plugininstallcavemancaveman# Cursor / Windsurf / Cline / Codex 等npx skillsaddJuliusBrussee/caveman-acursor# Gemini CLI 扩展gemini extensionsinstallhttps://github.com/JuliusBrussee/caveman启用方式在 Claude Code 里安装后从第一条消息就自动启用Hook 机制无需手动执行命令。其他 Agent 输入/caveman或说talk like caveman启用说normal mode关闭。四个压缩级别用/caveman level切换级别在会话内保持级别同一句话的不同版本正常 Agent“您应该将对象包裹在useMemo中因为每次渲染都会创建新引用。”lite“将对象包裹在useMemo中。每次渲染都会创建新引用。”full默认“每次渲染新引用。将对象包裹在useMemo中。”ultra“新引用/渲染。useMemo它。”wenyan使用文言文格式经典中文每 token 信息密度最高多语言说明Caveman 保持你的语言。用中文写caveman 用中文咕哝。西班牙语、法语、葡萄牙语同理。它压缩的是风格不翻译语言。wenyan是唯一例外——它故意切换到文言文因为经典中文每 token 的信息密度更高。完整工具集命令作用/caveman [lite|full|ultra|wenyan]压缩所有回复级别在会话内保持/caveman-commitConventional Commit 格式主题行 ≤50 字符写为什么不写是什么/caveman-review单行 PR 评论L42: bug: user null. 加守卫。/caveman-stats真实会话 token 使用量、终身节省量、美元换算--share输出可发推的一行/caveman-compress file把记忆文件如CLAUDE.md改写为穴居人风格平均节省 46% 输入 token每次会话永久生效caveman-shrinkMCP 中间件包裹任意 MCP 服务器压缩其工具描述。npm 包cavecrew-*穴居人子 Agent调查员、Builder、审查员约比普通子 Agent 少 60% token主上下文更持久项目详细剖析基准测试数据真实 API token 计数跨 10 个典型编程提示的平均值任务正常Caveman节省解释 React 重渲染 Bug118015987%修复认证中间件 Token 过期70412183%配置 PostgreSQL 连接池234738084%解释 git rebase vs merge70229258%回调重构为 async/await38730122%微服务 vs 单体架构44631030%PR 安全审查67839841%Docker 多阶段构建104229072%调试 PostgreSQL 竞态条件120023281%实现 React Error Boundary345445687%平均121429465%诚实的数字警告README 里有一个罕见的诚实声明值得单独介绍Caveman 只压缩输出token。输入和推理 token 不受影响而且 Skill 本身每轮约增加 1–1.5k 输入 token。所以全会话的实际节省比输出数字小对于本身就简洁的工作任务甚至可能变成净亏损。真正的收益是可读性和速度成本节省是附赠品。什么时候 caveman 赢解释类任务架构解释、概念说明→ 最大节省80%调试说明 → 大节省70-80%代码生成 → 中等节省代码本身不会被压缩什么时候 caveman 亏已经很简洁的任务“运行这个命令”→ Skill 开销 节省短对话 → Skill 初始 token 未被摊销/caveman-compress永久节省的关键/caveman-compress file的价值不同于普通的 caveman 压缩——它压缩的是每次会话都会加载的记忆文件CLAUDE.md、AGENTS.md等。/caveman-compress CLAUDE.md真实压缩数据文件原始压缩后节省claude-md-preferences.md70628559.6%project-notes.md114553553.3%claude-md-project.md112263643.3%todo-list.md62738838.1%mixed-with-code.md含代码88856036.9%平均89848146%代码、URL、路径字节精确保留。只有散文性的描述被压缩。一次压缩之后每个会话都从更小的输入上下文开始——永久节省不只是单次回复。工作原理1. 安装 └── 把 Skill 文件写入 Agent 的规则/配置目录 2. Skill 指令核心 └── 告诉 Agent ✅ 去掉填充词当然/如您所见/总的来说 ✅ 用片段而非完整句子 ✅ 省略过渡句和介绍性短语 ❌ 永远不要修改代码、命令、错误信息 3. Claude Code 自动启用Hook 机制 └── 安装时写入一个小标志文件 └── 每次会话 Hook 触发Agent 从第一条消息就是穴居人模式 4. /caveman-stats └── 读取本地会话日志计算 token 节省 └── 写入状态栏statusline 显示 [CAVEMAN] ⛏ 12.4k 5. 零遥测 └── 安装后无网络请求 └── Skill 是本地 promptHook 是本地脚本stats 读本地日志有趣的研究支撑2026 年 3 月arxiv 上有一篇论文arXiv:2604.00025《Brevity Constraints Reverse Performance Hierarchies in Language Models》测试了 31 个模型发现限制大模型给出简短回答在部分基准测试上准确率提升了约 26 分。简短不只是更便宜有时候更准确。Caveman 生态系统作者围绕Agent 用更少 token 做更多事这一主题构建了五个相关项目项目压缩对象caveman本文Agent 说的话输出 tokencaveman-code整个 Agent 端到端比 Codex 同任务约少 2× tokencavememAgent 记住的东西跨会话记忆cavekit构建循环规格驱动消除猜测cavegemma压缩烘焙进权重Gemma 微调模型以及五个附属 Skillgrill-me、interface-kit、junior-to-senior、loop-factory统一通过npx skillslatest add JuliusBrussee/skills安装。项目地址与资源官方资源GitHub: JuliusBrussee/caveman官网: caveman.so基准测试:benchmarks/和evals/可自行复现诚实数字文档:docs/HONEST-NUMBERS.md总结caveman 是一个 meme 包装里的严肃工具。穴居人的形式是个梗但 65% 输出 token 节省是真实测量数据基准测试代码在仓库里可以自己跑。项目值得注意的是它对诚实的执着主动在 README 里写这是输出 token全会话节省更小短任务可能净亏——这比大多数效率工具的宣传要诚实得多。/caveman-compress是其中最有长期价值的功能把CLAUDE.md等每次会话都加载的记忆文件压缩 46%不是节省一次是之后每次都省。如果你的CLAUDE.md已经很长了这个值得单独试一次。对于长时间使用 Claude Code 或任意 AI 编程工具、每天有大量代码对话的开发者caveman 是目前 token 成本优化中接入成本最低、副作用最小的工具之一一条安装命令30 秒之后每次 AI 回复都更快、更短、更便宜。探索 PrimeSkills —— 精选 AI Agent 与技能的市场每一个都经过真实企业工作流验证去掉浮夸留下真正有用的。欢迎访问我的个人主页发现更多有价值的见解和有趣的产品。