实战篇第13节:MIG——如何切割A100或H100实现资源隔离
一张A100分给7个租户使用,每个租户看到的是"独立的小GPU"——显存隔离、缓存隔离、错误隔离,这就是MIG(Multi-Instance GPU)的硬件级切分能力前言MPS让多个进程共享GPU算力,但有一个致命弱点:显存和错误不隔离。在多租户云环境中,一个用户的CUDA程序OOM了会连累所有其他用户。MIG(Multi-Instance GPU)是A100/A30/H100引入的硬件级虚拟化:一张物理GPU可以被静态切分为最多7个GPU实例(GI, GPU Instance),每个GI有自己独立的:显存(DRAM分区)L2缓存SM(流式多处理器)内存带宽错误隔离(一个GI的ECC错误不影响其他GI)这意味着你在一个MIG实例中运行的程序,完全感觉不到其他实例的存在——就像你独占了一张小一号的GPU。一、MIG的硬件架构1.1 A100的MIG分区方案A100-40GB 的 MIG 分区方案: ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 方案A: 不分区 (1× A100-40GB) ┌──────────────────────────────────────