32 卡 H800 使用 vLLM 部署 GLM-5.2 BF16:显存计算、`--max-model-len` 估算与完整部署教程
32 卡 H800 使用 vLLM 部署 GLM-5.2 BF16:显存计算、--max-model-len估算与完整部署教程一、先说结论在32 张 H800 80GB、--gpu-memory-utilization 0.80、vLLM 部署GLM-5.2 BF16的前提下:1. 模型理论最大上下文GLM-5.2 原生最大上下文是:1048576 10485761048576也就是约1M tokens。GLM-5.2 模型页也明确介绍它支持 1M token context,配置文件中的max_position_embeddings也是10485