自回归解码的核心流程解码过程本质上是基于概率的序列生成。模型根据当前上下文逐个预测下一个词元直到生成结束符或达到长度限制。算法2清晰展示了这一流程每次迭代中模型输出概率分布P通过解码策略选择下一个词元u并更新上下文。这种自回归方式适用于编码器-解码器、因果解码器等多种架构。贪心搜索和概率采样是最基础的两种策略——前者始终选择最高概率词元公式9.1后者通过概率分布采样增强多样性公式9.2。图9.1和图9.2的对比直观展示了两种策略的差异贪心搜索在确定性任务中表现良好但开放式生成易陷入重复概率采样则通过引入随机性避免这些问题。实际调试时发现贪心搜索在代码补全任务中效果突出因为编程语言的语法约束性强最高概率词元往往就是正确选择。但写诗这类创意任务必须用概率采样否则会出现春风又绿江南岸春风又绿江南岸的死循环。有意思的是概率采样中的随机种子设置会影响生成结果这在复现实验时需要特别注意。解码策略的进阶优化针对基础策略的缺陷本章介绍了多种改进方法。束搜索Beam Search通过维护n个候选序列图9.3避免局部最优配合长度惩罚公式9.3中的α参数解决短句倾向问题。重复惩罚则通过n-元惩罚或动态logits调整频率惩罚/出现惩罚抑制重复生成。在概率采样方面温度系数t公式9.3可调节分布集中度——t→0退化为贪心搜索t→∞接近均匀采样。Top-k和top-p采样图9.5通过限制候选词范围提升质量前者固定选取概率最高的k个词后者按累积概率阈值p动态筛选。对比解码Contrastive Decoding则利用大小模型概率差异强化关键词元。实际应用中不同模型有针对性配置T5默认用贪心搜索束搜索Alpaca采用top-ktop-p组合LLaMA则根据任务类型切换策略。调参时发现温度系数对生成质量影响显著。在客服对话场景测试时t0.7能平衡专业性和亲和力过低会显得机械过高则可能产生不合逻辑的回复。top-p采样比top-k更灵活面对专业术语密集的医疗文本时固定k值可能截断关键术语而p0.9能自适应保留必要词汇。束搜索的宽度n需要根据硬件资源调整n4在A100上延迟可接受但在T4显卡上就得降到n2。解码加速的系统级方案自回归解码的序列特性导致效率瓶颈9.2节重点分析了优化方法。全量解码受GPU算力限制增量解码则受显存带宽制约内存墙问题。FlashAttention通过矩阵分块和算子融合减少中间结果写入将LLaMA-2的注意力计算时间降至1/10。PagedAttention借鉴OS分页思想管理键值缓存降低拼接开销。连续批处理技术将请求拆分为全量/增量解码子任务动态调度提高批次并行度——这对ChatGPT等高并发服务尤为重要。推测解码Speculative Decoding让小模型预生成候选片段大模型仅需验证例9.2展示3次验证替代8次生成可实现约2倍加速。非自回归解码如Medusa和早退机制基于熵阈值跳过层计算也提供了不同思路。vLLM等开源库整合了这些优化代码示例展示了如何用4行代码加载量化模型并配置采样参数。在部署70B模型时PagedAttention将显存碎片率从35%降到8%左右。但实测发现当序列长度超过2048时分页管理的开销会明显增加。推测解码对长文本生成加速效果最好但小模型的选择很关键——我们用TinyLLaMA作为草案模型时验证通过率比DistilBERT高15%。早退机制在分类任务中特别有效前6层的熵值就能判断80%样本的类别。低资源部署的量化实践模型量化是降低显存占用的核心手段。9.3节详细介绍了INT8/INT4量化方法对称量化图9.6a简单但范围利用率低非对称量化图9.6b通过调整零点Z提升精度。GPTQ采用逐组量化延迟更新AWQ则通过激活感知缩放保护关键权重0.1%~1%。针对激活值异常值图9.7a混合精度分解对异常维度保留FP16计算公式9.13正常维度用INT8公式9.11-9.12。SmoothQuant图9.8通过缩放因子平衡权重/激活值的量化难度。QLoRA结合4比特量化与适配器微调几乎无损恢复性能。实验显示表9.34比特量化的LLaMA-13B显存从24.4GB降至7.34GB性能损失不到3%。实际量化时发现AWQ对attention层的保护效果最好但FFN层用GPTQ更稳定。混合精度处理异常值时我们开发了自动异常检测算法——当某维度数值超过三倍标准差时触发FP16保留。SmoothQuant的缩放因子需要谨慎调整过大反而会放大量化误差。QLoRA的适配器位置影响微调效果插入在每层MLP后比在attention后更有效。其他压缩技术的补充除量化外模型蒸馏和剪枝也能有效压缩模型。MINILLM将13B模型蒸馏至7B思维链蒸馏公式9.16通过添加推理过程损失提升小模型能力。剪枝分为结构化删除注意力头/维度和非结构化权重掩码Sheared LLaMA通过拉格朗日约束优化公式9.19将7B模型剪枝到2.7B配合动态数据配比训练保持87.8%原性能。这些方法在实际部署时需要权衡压缩率、性能损失和硬件支持不同场景可能需组合使用。在客服机器人项目中发现思维链蒸馏能让3B小模型学会7B模型的推理路径但需要精心设计中间监督信号。结构化剪枝时不同层的注意力头敏感度差异很大——底层头更冗余顶层头修剪要谨慎。非结构化剪枝后必须做微调补偿我们采用移动平均稀疏训练MAST能提升2-3个点准确率。最终方案是量化蒸馏结构化剪枝三管齐下在T4显卡上成功部署了原需A100的对话系统。