——效率是一种比准确率更稳定的特质模型Y每次回答只用300个token比模型X的500个token精炼40%。但算总账模型Y反而比模型X多花了30%的钱。为什么因为精炼和划算从来不是一回事。Chen等人2026的研究揭示了价格逆转现象在32%的模型对比中标价更低的模型因更长的推理链实际总成本反而更高差距最高达28倍。上一篇文章我们提出了ECETExpected Cost of an Effective Turn获得一次合格回答的期望Token消耗核心公式只有一行ECET 全部迭代Token消耗总量 ÷ 成功次数但这个公式背后藏着三个没有展开的问题。第一这个公式的数学本质是什么为什么它能度量真实成本第二光有一个ECET够不够还需要哪些辅助指标才能全面评估一个模型第三和学术界已有的效率评测方案比ECET独特在哪这篇文章把ECET背后的完整设计逻辑讲清楚。一、ECET的三条独立优化路径很多人以为ECET只是一个平均数总消耗除以成功次数。这个理解没错但不完整。ECET其实可以被拆解成两个分量它们对应着不同的优化方向。ECET 成功时的期望Token消耗 失败时的期望Token消耗 × (1-p)/p第一项成功时的期望Token消耗是模型答对时花的token——平均而言每次正确回答用了多少token。第二项失败时的期望Token消耗 × (1-p)/p是失败时的代价——失败时花的token越多、合格率p越低这项就越大。注意ECET不是只算成功那次的消耗。它把100次尝试的token全部加总包括答对的、答错的、跑偏的再除以成功了几次。比如100次花了50万token、成功了25次ECET就是2万token/次——其中既有成功那次的token也分摊了75次失败的浪费。这才是真实成本。这意味着降低ECET有三条可以独立优化的路径。路径A减少成功时的token消耗。让正确答案更精炼。两个模型都能答对一道编程题模型A用200字说清楚模型B用800字绕圈子——ECET的第一项就会差4倍。路径B减少失败时的token消耗。让错误回答更快停止。模型走错方向后是立刻止损还是继续输出1000字废话这一步的差距会乘上(1-p)/p的系数——当p很低时失败成本会被放大很多倍。路径C提高合格率p。更准确。这条路径最直观但提高p会同时降低第二项的权重——一石二鸟。三条路径可以独立优化也可以叠加。举一个具体的数字例子。假设有两个模型X和Y模型X成功率90%成功时花500 token失败时花2000 token模型Y成功率70%成功时花300 token失败时花1500 token计算可得ECET_X 500 2000 × 0.1/0.9 ≈ 722 tokenECET_Y 300 1500 × 0.3/0.7 ≈ 943 token模型Y虽然单次回答更精炼300 vs 500但因为成功率低ECET反而更高。这告诉我们一个反直觉的事实更精炼的模型不一定更划算——低成功率会放大所有失败尝试的代价。但光看ECET还不够。就像体检不能只看血压——你还需要心率、血糖等指标从不同角度拼出完整的健康图景。ECET体系还配备两个辅助维度。第一个辅助指标FSEFirst-try Success Estimator首次成功率。FSE衡量的是模型第一次就答对的概率。FSE和合格率p的组合揭示不同的模型特质FSE高 p高模型又准又稳每次都有信心答对FSE高 p低首次尝试经常成功但整体成功率不高——赌徒型模型要么一击命中要么反复翻车FSE低 p高模型能力够但输出不稳定——这次可能对、下次可能错需要多次重试FSE低 p低模型需要反复尝试才可能碰对这个指标之所以重要因为它直接关系到开发者的使用体验。一个FSE只有30%但p有90%的模型意味着你平均要调用3次才能得到一次正确答案——这会直接体现在ECET里。用日常类比考试偶尔能考满分和每次都考满分是两回事。ECET只告诉你平均分FSE告诉你发挥稳定性。第二个辅助指标信息密度Information Density。信息密度衡量模型合格回答的啰嗦程度。计算方式是参考答案字符数 ÷ 模型输出字符数仅计算合格回答。信息密度≈1说明模型输出长度和参考答案差不多1说明可能有冗余或包含思考过程1说明比参考答案还精炼——但1不必然更好模型可能跳过了必要的推理步骤用更短的篇幅输出了看似正确但缺乏依据的答案。为什么要用字符数而不是token数因为不同模型的tokenizer切分方式不同——GPT-4o处理中文大约每字1.4-1.8个tokenQwen大约每字1.0-1.1个token。用字符数可以消除这个差异。一个有趣的发现GSM8K数学题和HumanEval编程题可以报告信息密度但MMLU选择题不行——因为MMLU的参考答案只有一个字母A/B/C/D字符数比会严重失真。三个维度拼在一起ECET管成本、FSE管稳定性、信息密度管啰嗦度。但还有一个容易被忽视的前提你看到的token消耗未必是全部消耗。ECET有两个版本——ECET_visible只计算模型输出的可见tokenECET_total则把推理和思考过程中消耗的token也算在内。排行榜应以ECET_total为准。因为不同模型对推理token的暴露策略不同DeepSeek会展示thinking tokens而Kimi、GLM-4可能不暴露。一个ECET_visible很好看的模型未必真的更省——可能只是推理过程藏得深。二、LLM效率评测的四个流派——ECET独特在哪ECET不是凭空出现的。目前学术界和工业界对LLM效率的关注可以归为四个流派。流派一过度思考检测。代表作LLMThinkBenchACL 2026 Findings在14个基础数学推理任务上评估了53个模型。研究者提出了一个过度思考分数——准确率与token效率的调和平均。核心发现推理模型如o3、DeepSeek-R1生成的token量是普通模型的18倍但准确率几乎没有提升当限制推理token时部分模型的准确率下降超过1/3。这个流派关注单次推理是否想太多——ECET补的是想太多花了多少代价。两者互补Overthinking Score解释为什么token多ECET度量多出来的token花了多少代价。流派二效率分解。代表作Beyond AccuracyarXiv:2602.09805用完成率、条件正确率、生成长度三个可观测量分解token效率发现逻辑受限、上下文受限截断、冗长受限三种不同的失败模式。一个关键发现效率排名比准确率排名更稳定。这意味着在不同benchmark之间模型的谁更高效排名变化较小而谁更准确排名变化较大。这个流派关注单次推理的效率构成ECET补的是失败尝试的分摊成本。流派三经济成本测算。Token Burn2026标准化了14个任务测试套件评估了24个主流LLM提出了PABI指数——综合考虑token浪费和价格后的经济效率指标。震撼的数据最高效和最低效模型的成本差距可达470倍。Claude 4 Opus平均消耗是最高效模型的2.21倍token在结构化输出任务中从未单次完成。这个流派从经济成本视角切入ECET补的是这个470倍是否统计显著——单次测评报告的差距可能是噪声。流派四Token压缩。CROPICLR 2026 Workshop证明了超过80.6%的token消耗可以在不显著损失准确率的前提下被压缩。LLMLinguaEMNLP 2023展示了将输入提示压缩20倍仍能保留98.5%准确率的潜力。这个流派解决的是如何减少token的问题ECET解决的是如何度量token效率的问题。压缩方法是降低ECET的技术手段之一但ECET为压缩效果提供了统一的评估标准。ECET的独特位置在于第一唯一从开发者实际成本出发的指标。多次尝试直到成功这才是开发者在API调用时的真实场景。第二唯一自带统计学框架的效率指标。确保你看到的差距是真的不是噪声——下一节简述。第三唯一可扩展到Agent多轮场景的指标。多轮对话的累积成本、任务成功率随轮次下降——这些ECET都可以建模。值得一提的是Du等人2025提出的OckBench已经发现在相似准确率水平下不同模型的token消耗可相差5倍以上揭示了仅依赖准确率排名的严重偏差。ECET在这个方向上更进一步——不仅关注单次推理的token效率还将重复采样中的失败成本纳入统一的期望框架。一个容易被忽略的基础问题不同模型的tokenizer差异有多大presenc.ai在2026年的研究显示同一篇中文文章GPT-4o需要约1.4-1.8个token表达一个汉字Qwen只需要约1.0-1.1个。还没开始回答输入成本就差了将近一倍。如果不做任何处理就比谁的token更少——你可能只是在比谁的切词方式更细碎。ECET的解决方案是并列报告两个版本按token计数的ECET反映你实际付了多少钱和按字符计数的ECET反映模型处理了多少语义内容。三、差距是真的还是运气假设你测了两个模型模型A的ECET比模型B低20%。你很高兴觉得选A准没错。但等等——这个20%的差距是真的更好还是这次测试碰巧Bowyer等学者在2025年的论文明确指出LLM评测中不能用传统的中心极限定理因为LLM输出通常是严重偏斜分布的且测试样本量往往很小。替代方案是Bootstrap——一种不用正态假设的重采样方法。核心思路是从60道题的ECET值中有放回地随机抽取60个计算均值重复1000次取2.5%和97.5%分位数作为95%置信区间。以题目为单位配对比较——对每道题分别计算两个模型的ECET差值控制题目难度的影响。只有置信区间不重叠的差距才被认定为显著差异。所以我们不只看平均值差多少还要看这个差距有多大概率是真的。四、从理论到实测框架搭好了下一步是实测。我们选择了60道题GSM8K数学20题 HumanEval编程20题 MMLU知识20题测试DeepSeek-V3、Kimi、GLM-4三个国内开发者最常用的模型。采样策略是预实验加自适应正式实验先用每题10次采样做预实验根据合格率动态调整正式实验的采样次数20-50次不等平衡精度和成本。为什么60道题够用Bootstrap置信区间的方法在n≥20时通常已经可靠。我们选择60道题是在保证统计可靠性的同时控制实验成本。下一篇文章我们会分享完整的实验数据——三个模型的ECET实测对比谁最省FSE和信息密度又揭示了什么不一样的故事敬请期待。结尾效率是一种可测量的特质回到开头的问题ECET公式只有一行但背后藏着一整套评测体系。Beyond Accuracy那篇论文有一个反直觉的发现效率排名比准确率排名更稳定。这意味着效率是一种比准确率更可靠的模型特质。一个模型今天排第一、明天排第五这不奇怪但如果一个模型的效率排名长期稳定这个信号就更可信。ECET不是要替代能力排行榜——它补上的是缺失的效率维度。聪明和划算从来就不是同一件事。参考文献[1] Srivastava, G. et al. Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models. ACL 2026 Findings. [2507.04023] Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models[2] Kaiser, D. et al. Beyond Accuracy: Decomposing the Reasoning Efficiency of LLMs. 2026. [2602.09805] Beyond Accuracy: Decomposing the Reasoning Efficiency of LLMs[3] Universal Value Advisors. Token Burn: An Empirical Analysis of Economic Inefficiency in Premium LLMs. 2026. Universal Value Advisors | Strategic Wealth Management[4] Shah, D. et al. CROP: Token-Efficient Reasoning in Large Language Models via Regularized Prompt Optimization. ICLR 2026 Workshop. Verifying your browser | OpenReview[5] Jiang, H. et al. LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models. EMNLP 2023. [2310.05736] LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models[6] Bowyer, S. et al. Dont Use the CLT in LLM Evals. 2025. [2503.01747] Position: Dont Use the CLT in LLM Evals With Fewer Than a Few Hundred Datapoints[7] LLM Tokenizer Efficiency Comparison. presenc.ai. 2026. LLM Tokenizer Efficiency Comparison 2026 | Presenc AI[8] Chen, L. et al. The Price Reversal Phenomenon: When Cheaper Reasoning Models Cost More. 2026. [2603.23971] The Price Reversal Phenomenon: When Cheaper Reasoning Models Cost More[9] Du, Z. et al. OckBench: Measuring the Efficiency of LLM Reasoning. 2025. [2511.05722] OckBench: Measuring the Efficiency of LLM Reasoning