推理引擎 vLLM 深入——PagedAttention 为什么是革命性的?
前置知识:第05篇(Self-Attention)/ 第08篇(FlashAttention)引言:推理是比训练更大的挑战训练大模型是很贵,但推理是每天都在发生的。一个 70B 模型做一次推理,需要的算力大约是训练一个 token 的 50 倍。当每天有百万次推理请求时,推理引擎的效率直接影响运营成本。vLLM 是目前最流行的开源推理引擎。它不做模型架构优化,而是从系统层面解决了两个核心问题:KV Cache 显存浪费→ PagedAttentionGPU 利用率低→ Continuous Batching一、Static Batching vs Continuous Batching1.1 Static Batching 的问题传统推理服务的工作方式:请求 A(短) → [████████████] 请求 B(长) → [████████████████████████] 请求 C(中) → [██████████████]