NVIDIA Blackwell架构深度解读
踩坑千卡GPU集群之前先搞懂Blackwell架构到底改了啥搞大模型推理和训练的同行应该都有体会——卡多了之后瓶颈往往不在单卡算力而在卡间通信和显存墙。2024年NVIDIA扔出的Blackwell架构本质上是冲着这两个痛点来的。这篇文章把Blackwell的芯片设计、NVLink互联和机架级产品矩阵梳理一遍只说干货。一、从Hopper到Blackwell为什么不再卷单Die先看最核心的变化Blackwell GPU不再是一颗完整的单Die芯片而是两颗Die通过高速接口拼在一起。单Die性能提升仅约15%功耗增加约35%B200 双Die合封NV-HBI~10TB/sDie 0Die 1H100 单Die封装单Reticle Die80B晶体管TSMC 4NHopper的单Die GPUH100已经把TSMC 4N工艺的红利吃得差不多了——继续在单个Die上堆晶体管性能提升幅度远跟不上功耗增长。于是Blackwell换了一条路用先进封装把两颗Die合封到一起两Die之间通过NVIDIA自研的NV-HBIHigh Bandwidth Interface互联带宽做到约10TB/s级别。一颗B200总计约208B晶体管大约是H100的两倍。但从OS视角看两颗Die仍然呈现为一颗完整的GPU共享8个HBM Stack。这个变化意味着什么单颗GPU的算力增长不再靠制程微缩而是靠Chiplet拼装。AMD的MI300系列走了类似路线八Die合封可以说这是后摩尔时代行业共识。二、Blackwell芯片架构几个关键升级点2.1 低精度算力FP4/FP6来了训练侧FP16/BF16还是主力但推理侧已经全面拥抱更低精度。Blackwell在FP8之外新增了FP6和FP4支持以及MXFP8、UE8M0等微缩格式精度定位典型场景FP16/BF16训练主力大模型预训练、微调FP8推理部分训练Hopper已支持Blackwell继续FP6过渡精度MoE模型推理FP4极致推理超大规模模型推理部署FP4算力大约是FP8的两倍。NVL72机架满载FP4时总算力非常夸张——单机架就能跑到几百P FLOPS级别。不过注意FP4目前主要服务于推理训练侧量化到FP4精度损失还比较大。2.2 SerDes升级到224G PAM4SerDes速率从Hopper的112G PAM4翻倍到224G PAM4。这影响的不仅是NVLink还包括网卡侧——ConnectX-8支持800Gb/s背后就是224G SerDes的功劳。2.3 HBM3E显存Blackwell全系采用HBM3EB200配置192GB部分SKU带宽约8TB/s。HBM容量和带宽的增长对推理场景尤其关键——KV Cache的显存占用直接决定了最大上下文长度。GPU HBM容量演进 (单卡)A100(2020)H100(2022)H200(2023)B200(2024)GB300 Ultra(~2025)350300250200150100500HBM容量(GB)三、NVLink 5.0 NVSwitchL1域互联的质变3.1 NVLink五代演进NVLink从Pascal时代的NVLink 1.0一路迭代到Blackwell的NVLink 5.0变化非常直观Pascal (2016)NVLink 1.04 Links × 40GB/s单向总带宽 160GB/sAmpere (2020)NVLink 3.012 Links × 50GB/s单向总带宽 600GB/sHopper (2022)NVLink 4.018 Links × 50GB/s单向总带宽 900GB/sBlackwell (2024)NVLink 5.018 Links × 100GB/s单向总带宽 1800GB/s每个NVLink Link从2 Lane升级到2 LaneBlackwell保持不变但每Lane速率从112G PAM4翻到224G PAM4双向总带宽直接翻倍到1800GB/s。3.2 NVSwitchPort数量决定L1规模上限NVSwitch的Port数量直接决定了L1互联域能塞多少GPU。这是一个很关键但容易被忽略的约束NVSwitch代际每芯片Port数每Port Lane数单GPU NVLink数L1域最大GPU数NVSwitch 2.0 (Ampere)642128 (NVL8)NVSwitch 3.0 (Hopper)642188 (NVL8)NVSwitch 5.0 (Blackwell)7221872 (NVL72)Blackwell的NVSwitch单芯片提供72个Port加上NVLink带宽翻倍使得L1全互联域从Hopper时代的8卡直接跃升到72卡。这是NVL72能成立的前提。一句话总结GPU的NVLink Link数 × 单Link带宽 GPU对外出口带宽Switch Port数 × GPU数 全网状互联的数学约束。两者缺一不可。四、产品矩阵B200/B300/GB200/GB300到底怎么选Blackwell家族的产品线确实有点眼花缭乱按层级梳理一下4.1 芯片级芯片Die配置OS视角GPU数定位B100单芯双Die1早期版本B200单芯双Die1主力SXM版本B300A单芯单Die1成本优化版对应NVL16B300 Ultra单芯双Die1旗舰版对应GB300 NVL72B300A采用单Die设计显存144GB功耗更低B300 Ultra则是双Die的满血版。4.2 SuperChipGB200/GB300统一内存视图LPDDR5X 480GB来自Grace CPUHBM3E 384GB来自2×B200GB200 SuperChipNVLink-C2C~900GB/sGrace CPU72核 ARMB200 GPU × 2GB200把1颗Grace CPU和2颗B200 GPU通过NVLink-C2C捆在一起形成一颗SuperChip。CPU和GPU之间900GB/s的带宽意味着它们共享同一个内存地址空间不再是传统PCIe的DMA拷贝模式。GB300升级到2颗B300 Ultra总体思路一致。4.3 机架级产品产品GPU数NVSwitch配置定位HGX B300A NVL1616 × B300ASXM形态传统8/16卡服务器升级DGX B300 Ultra8 × B300 UltraSXM形态单机高性能节点GB200 NVL3636 × B2009×NVSwitch TrayL1域半互联GB200 NVL7272 × B2009×NVSwitch TrayL1域全互联GB300 NVL7272 × B300 Ultra9×NVSwitch TrayL1域全互联升级版五、NVL72为什么要做72卡全互联机架5.1 物理构成一个NVL72机架包括GB200 NVL72 机架铜缆背板CX-8 SuperNIC 800Gb/s18 × Compute Tray (1RU)Tray 1: 2×GB200 4×B200 GPUTray 2-17: ...Tray 18: 2×GB200 4×B200 GPU9 × NVSwitch Tray (1RU)每Tray 2×NVSwitch Chip每Chip 72 Port18个Compute Tray × 每个4颗B200 72颗GPU在L1域内全互联任意两颗GPU之间NVLink带宽可达1800GB/s。5.2 NVL72的核心收益搞大模型推理的同行应该很熟这个场景MoE模型的Decode阶段是EPExpert Parallelism的重灾区。All-to-All通信的带宽和延迟直接决定了TPS上限。NVL72相对于多台NVL8拼装最本质的优势在于L1域内All-to-All通信无阻塞72卡全互联不需要跨机架走IB/RoCE延迟大幅降低铜缆背板替代光模块交换机延迟低一个数量级单位功耗下的总吞吐提升同样跑EP64NVL72的TPS上限远超多机拼装方案不过也要清醒认识到NVL72解决的问题是Scale-Up通信如果你的模型并行策略以DPData Parallelism为主那NVL72的收益就有限了。选什么产品形态取决于你的并行策略。六、未来路线图Rubin在路上了NVIDIA已经公开了后续两代产品的规划代际时间窗口GPU代表NVLink关键变化Hopper2022-2023H100/H200NVLink 4.0首次引入FP8Blackwell2024-2026B200/B300NVLink 5.0双Die合封、FP4、NVL72Rubin~2026-2027VR200/VR300NVLink 6.0/7.0四Die合封(Rubin Ultra)、HBM4Rubin Ultra将采用4颗Reticle Die 2颗I/O Chiplet的Chiplet方案FP4算力目标在百P级别HBM升级到HBM4Rubin甚至HBM4ERubin Ultra。互连侧NVLink 6.0的每Link从2 Lane升级到4 Lane每Lane保持200G单向带宽从900GB/s翻到1800GB/sNVSwitch单芯片Port数从72增至144——这意味着L1域的上限还会继续扩大。制程精度Chiplet规模化Rubin 2026四Die(Rubin Ultra)HBM4/HBM4ENVL144/NVL576Blackwell 2024双DieFP4/FP6NVL72Hopper 2022单DieFP8七、总结几个值得关注的趋势把整条线串起来能从Blackwell看到几个很明确的行业趋势维度趋势Blackwell体现芯片设计单Die→Chiplet多Die合封B200双Die通过NV-HBI互联精度路线推理精度向FP4下探首次支持FP6/FP4显存HBM容量、带宽持续增长HBM3E 192GB→288GB互联L1域规模从8卡跃升到72卡NVSwitch 5.0 NVLink 5.0机架从单机到整机柜一体化交付NVL72是完整产品网络Scale-Out网卡进入800G时代CX-8 800Gb/s搞大模型基础设施的同行需要关注的本质问题是当模型参数规模持续膨胀十万亿级、上下文长度进入百万Token级单卡算力增长已经跟不上需求了。未来的竞争焦点会从单卡有多强转变为一个机架能提供多少有效算力和显存带宽。Blackwell给出的答案是双Die Chiplet NVL72全互联机架这个思路大概率会延续到后面几代产品。本文基于NVIDIA官方公开发布的产品信息和架构白皮书整理架构分析部分均为公开信息。所有性能数据来自NVIDIA官方公布的产品规格表。