专栏《人工智能Agent从部署到生产》第18篇:不换GPU、不降模型质量,用FP8量化把显存占用砍掉50%、吞吐提升最多3倍。从在线量化到离线静态校准,每一步都有可复现命令。TL;DRFP8量化是当前生产环境中性价比最高的推理加速手段——比INT4精度高一个量级,比BF16省一半显存。本文覆盖三大场景:在线动态量化(一条参数搞定,适合快速验证):--quantization fp8离线静态量化(生产推荐,吞吐最高):用 AutoFP8/llm-compressor 提前量化,配 CUTLASS kernel 跑满 Tensor CoreKV Cache 量化(长上下文杀手锏):--kv-cache-dtype fp8让 128K 上下文不再 OOM核心数据:Llama 3 70B 在 2×H100 上,FP8 相比 BF16——ITL 降低 50%、吞吐提升 3 倍、精度损失 1%。本文与上篇(启动参数调优)的关系:上篇教你在不改变模型精度的情况下榨干 GPU;这篇教你通过降低精度进一步释放显存。两篇组合使用效果叠加——先用 FP8 释放显存 → 再用调参增加 KV Cache 池 → 吞吐量达到单卡物理极限。一、为什么 FP8