前置知识:第12-13篇(DP/TP/PP 并行概念)引言:框架不决定上限,但决定下限模型架构决定了能力的上限,而训练框架决定了你能多快、多稳地到达这个上限。目前主流选择三个:PyTorch FSDP:官方原生,生态王者DeepSpeed:微软出品,功能最全Megatron-LM:NVIDIA 出品,张量并行最强这一篇不做"谁更好"的判断,而是给一份按场景选型的决策指南。一、三大框架定位维度PyTorch FSDPDeepSpeedMegatron-LM开发者PyTorch 官方MicrosoftNVIDIA核心优势易用性、生态功能全、CPU offload张量并行最强