流水线并行与序列并行——3D 并行的最后一维
前置知识:第12篇(数据并行与张量并行)引言:TP 不够用怎么办?上一篇聊到 TP(张量并行)把模型每层切分到多张 GPU,但 TP 有一个限制:只能在一个节点(8 GPU)内用。当你训练 70B 模型时,每层的大小已经超过 8 张 A100 能容纳的范围——这时就需要在层的维度做切分,这就是流水线并行(PP)。而序列并行(SP)解决另一个问题:长序列的激活值显存。当序列长度达到 128K,光激活值就能吃掉几十 TB 的显存。一、流水线并行:切分层维度1.1 基本思路模型有N NN层,你把它们分成