前置知识:第18篇(模型量化)/ 第19篇(vLLM 推理引擎)引言:当 AI 不再需要联网想象一下:你的手机里跑着一个 70B 模型,离线、隐私、零延迟——这就是端侧推理的终极目标。端侧推理与服务器推理有本质的不同:服务器推理端侧推理瓶颈算力(GPU 计算)带宽(内存速度)显存HBM(~2TB/s)DDR/统一内存(~100GB/s)量化INT8/FP8INT4/Q4_K_M(极端)最优 batch尽可能大1(批处理收益低)目标最大化吞吐量平衡速度与隐私一、为什么带宽是端侧推理的瓶颈?