前置知识:第06篇(Transformer 架构)/ 第15篇(混合精度训练)引言:一张 RTX 4090 能跑 70B 吗?按常理不行——70B 模型用 FP16 要 140GB 显存,而 RTX 4090 只有 24GB。但量化改变了一切:INT4 量化后,70B 模型只需 ~39GB 显存(GGUF Q4_K_M),一张 A100 或双 4090 就能跑。量化的本质很简单:# 原始 FP16 权重weight=0.123456789# 16 bit → 2 bytes# INT4 量化后的权重weight_q=7# 4 bit → 0.5 bytes