Adaptive ML:小模型预测给大模型一次验证; 为什么 大的LLM「验证」K 个词只要 1 次前向?
Adaptive ML:小模型预测给大模型一次验证; 为什么 大的LLM「验证」K 个词只要 1 次前向?目录Adaptive ML:小模型预测给大模型一次验证; 为什么 大的LLM「验证」K 个词只要 1 次前向?一、图里在演示什么?二、推测解码的完整原理(三步)第 1 步:Draft(小模型起草)第 2 步:Verify(大模型并行验证)第 3 步:Resample(拒绝后重采样)—— 图里这一步三、核心保证:Preserving the Distribution(图的标题)四、为什么这样能加速?小模型抢跑写草稿,大模型并行验证一、图里在演示什么?上方的词communicate using a wiggle,每个词头上都打了 ✅,代表草稿被逐个验证。绿色/黄色的柱子 = 不同 token 的概率。标题Step 12 of 13 — Resampling:「我们用重采样出的 tokenwiggle替换掉了buzz」。底部Preserving the Distribution(保持分布不变)——这是整套算法的「灵魂保证」。也就是说:小模型原本草稿里写的是buzz,被大模型拒绝了,于是触发重采样,换成了wiggle,而且这个替换在数学上保证最终结果和大模型自己跑出来的分布完全一致。二、推测解码的完整原理(三步)第 1 步:Draft(小模型起草)便宜的小模型q飞快地一口气