第10篇:MoE 混合专家架构——“更大但不更贵“的大模型设计
前置知识:第06篇(Transformer Decoder Block)/ 第07篇(FFN 结构)引言:GPT-4 到底有多大?GPT-4 的参数规模从未公开,但业界的共识是:它不是一个 1.8T 参数的 dense 模型,而是一个~1.8T 总参数的 MoE 模型,每个 token 只激活其中的一小部分。MoE(Mixture of Experts)是大模型 scale up 到千亿级以上的唯一可行路径。GPT-4、Mixtral、Qwen-MoE、DeepSeek-V2——顶级模型几乎都在用。核心思想一句话:总参数堆到很大,但每次推理只算一小部分。一、MoE 的结构1.1 核心组件MoE 层有两个新组件:左图:门控网络将每个 token 路由到 8 个专家中的 2 个,加权求和输出。右图:MoE 模型的总参数 vs 激活参数对比——Mixtral 8x7B 总参数 46.5B 但每次推理只激活 11.6B(25%),QLoRA 的