这项由南京大学计算机软件新技术国家重点实验室联合阿里巴巴集团、上海人工智能实验室共同完成的研究以预印本形式发布于2026年6月24日论文编号为arXiv:2606.26016。感兴趣的读者可以通过该编号在arXiv学术平台上查阅完整论文。一、老将新困图像生成的隐形天花板有一类AI图像生成技术叫做标准化流Normalizing Flow以下简称NF它的工作原理类似一台精密的翻译机器——把复杂的图像数据翻译成一种简单的数学语言高斯分布再把这种数学语言翻译回图像。这台翻译机最大的优势是双向无损既能精准地把图像压缩成数学语言也能严丝合缝地把数学语言还原为图像并且整个翻译过程可以精确计算概率。然而这台翻译机有一个深层的困扰。由于它必须保证翻译的完全可逆也就是说进去多少信息出来必须也是多少信息它的所有精力就不得不同时用于处理图像中所有层次的细节——从整张图的构图、物体的轮廓形状一直到每个像素点微小的明暗变化。这就好比一位厨师被要求同时负责一整场宴席的所有工作从整体菜单设计到每道菜的烹饪再到每个盘子的摆盘装饰哪一件都不能漏。精力分散的结果是他最擅长的部分——对整顿宴席风格的把控——反而做得不够好。具体来说图像中有两种信息一种是高层语义信息比如这张图里有一只猫、猫在睡觉、背景是草地这些是人眼一眼就能理解的核心内容另一种是低频像素细节比如草地上每根草的纹理、猫毛的具体走向这些是让图像看起来真实细腻的像素级噪声。NF翻译机因为必须面面俱到往往把大量翻译精力浪费在处理这些像素级噪声上导致真正重要的高层语义信息反而捕捉得不够准确生成出来的图像在整体结构和语义合理性上表现不佳。与此同时AI领域还有另一项流行技术叫做掩码图像建模Masked Image Modeling以下简称MIM。这项技术的核心思路非常直觉把一张图的某些区域遮住然后让AI去猜被遮住的部分是什么。就像做填字游戏一样AI在反复练习中学会了深刻理解图像的整体结构和语义——因为只有真正理解了整张图在讲什么故事才能合理地猜出被遮住的部分。这项技术在帮助AI读懂图像方面效果极佳但长期以来它主要用于训练能够理解图像的AI判别模型而不是生成图像的AI生成模型。研究团队发现这两项技术恰好可以互补MIM擅长让AI理解图像的高层语义NF擅长精确建模概率分布并生成图像如果能把两者真正融合在一起或许能突破NF的能力瓶颈。这就是MIMFlow诞生的动机。二、把宴席工作拆开MIMFlow的核心思路MIMFlow的整体设计哲学可以用一个厨房分工的故事来理解。高端餐厅之所以能做出既有深度又精致美观的菜肴靠的是一个清晰的分工体系主厨负责整体菜品风格和核心口味设计助厨团队负责具体的烹饪过程摆盘师傅负责最后的视觉呈现。三者各司其职互不干扰但又紧密协作。MIMFlow做的事情本质上就是给图像生成建立这样一套分工体系。整个框架由三个核心模块组成它们协同工作但分担不同的责任。第一个模块是掩码编码器扮演的是主厨提炼风格的角色。这个编码器接收一张被随机遮住部分区域的图像作为输入然后用一种特殊设计提炼出图像的核心语义。具体而言研究团队在编码器里引入了一种叫做可学习查询令牌的设计——可以把它理解为一组特殊的问题卡片数量固定为128张。这128张问题卡片会在编码器内部的自注意力机制一种让AI的每个部分都能参考其他所有部分的机制中主动向那些没有被遮住的图像区域发问、收集信息最终每张卡片都浓缩了来自整张图的关键语义。最后编码器只输出这128张问题卡片的处理结果作为语义潜变量而不是完整图像的所有信息。这个设计有一个精妙之处原始的256×256分辨率图像被划分成16×16256个图像块而这里只输出128个令牌也就是说信息被主动压缩了一半。而且因为输入图像本身就有40%到60%的区域被遮住了AI必须从残缺的信息中提炼出完整的语义理解这天然地迫使编码器去关注那些真正重要的结构信息而不是局部的像素细节。就像一个人如果只能看到一张照片的一半他对这张照片里有什么的理解必然会高度依赖整体语境和结构而不是局部纹理。第二个模块是标准化流扮演的是主厨对整体风格建模的角色。它接收编码器输出的128个语义令牌学习如何把这些令牌的分布映射到一个简单的高斯分布可以理解为一种均匀分布的随机数池子。在生成图像时从这个随机数池子里采样然后通过流的逆向过程得到一组语义令牌。由于这些令牌已经被掩码编码器剥离了像素级噪声只保留了高层语义NF不再需要同时处理画面的整体故事和每根头发的走向终于可以专心做好它最擅长的事精确建模有意义的语义空间的概率分布。第三个模块是生成解码器扮演的是负责最终呈现的摆盘师傅。它接收NF产生的语义令牌然后通过跨模态注意力机制一种让解码器既参考语义令牌又结合可学习的图像位置嵌入的机制把抽象的语义信息还原成具有丰富像素细节的完整图像。高频的纹理细节、精细的视觉质感都由这个解码器专门负责。这种分工的好处显而易见负责概率建模的NF只需要应对一个结构清晰、语义明确的紧凑空间而不是嘈杂的全像素空间负责像素重建的解码器只需要专注纹理合成而不必同时承担语义理解。两者的能力都得到了充分发挥。三、数学支撑为什么这样分工在理论上是合理的MIMFlow在数学上建立在一个叫做变分推断Variational Inference的框架之上不过读者完全不需要深入了解这个数学框架只需要理解它想解决的问题。简单来说任何生成模型都希望回答一个问题给定一张真实图像我怎么计算出这样的图像有多大概率存在同时它还要有能力反过来给定一个随机的数字我怎么生成出一张看起来真实的图像MIMFlow把这个问题拆解成了两部分同时优化。一部分是重建损失把一张被遮住的图像输入编码器得到语义令牌再通过解码器重建出完整图像用重建结果和原图的差距作为反馈来改进模型。重建损失由两部分组成一部分是像素级别的均方误差直接衡量每个像素有多接近另一部分是感知损失衡量视觉感知上的相似程度。另一部分是流损失用NF来计算语义令牌的概率让NF精确地知道什么样的语义令牌是合理的什么样的是不合理的。这两部分损失被同时优化也就是说编码器、解码器、标准化流三个模块从头到尾一起训练互相配合、互相促进——这种训练方式叫做端到端训练。相比之前那种先单独训练好图像编码解码器、再单独训练生成模型的两段式训练端到端训练能确保编码器产生的语义空间天然适合NF去建模而不是让NF去适应一个不是为它设计的潜在空间。训练过程中还有一个小技巧值得一提研究团队在语义令牌上加入了一点点随机噪声数学上是高斯噪声标准差σ0.3是通过实验找到的最优值。这个技巧的作用类似于给咖啡豆烘焙时增加一点随机波动——让最终的豆子批次更加稳定均匀避免因为某些极端值影响整体质量。加入这个噪声让NF在学习概率分布时面对的是一个更加平滑的分布训练更稳定最终效果更好。此外MIMFlow还增加了一个辅助学习任务在训练过程中同时让一个轻量级的辅助解码器去预测来自DINO一种专注于理解图像结构的预训练视觉模型和CLIP一种专注于理解图像与语言关系的预训练模型的特征向量。这就相当于在教厨师烹饪的同时还请了几位美食评论家来实时反馈你对这道菜的整体风格理解是否准确——通过这种额外监督语义令牌被进一步推向更高层次的语义表达。实验发现DINO和CLIP的组合效果最好因为它们提供了互补的信息DINO更擅长理解图像的结构CLIP更擅长理解图像的语义类别。加入低层次特征如HOG一种描述图像边缘的传统特征则会导致训练崩溃这进一步验证了MIMFlow的潜在空间天然排斥低层像素信息的特性。四、最后的精修对抗训练让图像更真实端到端的联合训练阶段结束后研究团队还增加了一个短暂但关键的精修阶段——对抗性微调。这个阶段的工作原理类似于给一件精心缝制的衬衫做最后的熨烫和细节修整。联合训练阶段的解码器虽然能正确理解语义、生成结构合理的图像但生成的图像往往看起来略微模糊缺少那种让人感觉栩栩如生的高频纹理细节。原因在于均方误差这类重建损失有一种内在倾向当不确定某个区域应该长什么样时它倾向于输出一个平均化的结果这在视觉上表现为模糊感。对抗性微调引入了一个评审员网络判别器它的任务是判断一张图像是真实的还是AI生成的。解码器则努力生成能够骗过这个评审员的图像。这场猫鼠游戏迫使解码器学会生成更细腻、更真实的纹理细节。精修阶段有一个精心的设计编码器在这个阶段继续接收被遮住的图像作为输入而不是完整图像。这确保了解码器在精修阶段所接触到的语义令牌和它在联合训练阶段所学到的语义令牌分布保持一致。如果精修阶段换成用完整图像解码器接触到的令牌分布会发生变化而NF是针对被遮住图像产生的令牌分布训练的这种分布偏差会导致生成时的图像质量下降。整个精修阶段只需要额外训练2个轮次相比联合训练的90个轮次代价极小但效益显著。五、实验结果数字背后的故事研究团队在图像生成领域最权威的基准数据集ImageNet包含超过百万张来自1000个类别的真实图像的256×256分辨率版本上验证了MIMFlow的性能。评估指标主要是FIDFréchet Inception Distance数值越低代表生成图像越接近真实图像分布可以理解为一个衡量真实感的分数和线性探测准确率衡量AI学到的特征是否包含足够语义信息的一种测试类似于考察学生理解了多少课程内容的测验。在NF家族内部的对比中MIMFlow表现出了明显的进步。和参数量几乎相同约480M参数的SimFlow-L相比MIMFlow-L的FID从3.72降低到了2.50降幅达到32.8%。更引人注目的是MIMFlow-L使用的参数量只有FAE-NF-XXL的约三分之一482M对比1.4B却取得了更好的FID2.50对比2.67。甚至和参数量是其约3倍、使用1024个令牌的STARFlow-XXL相比MIMFlow-L的表现FID 2.50也非常接近STARFlow-XXL为FID 2.40。令人印象深刻的是MIMFlow在没有外部引导CFGClassifier-Free Guidance一种通过重复采样来提高生成质量的技术时的表现。没有CFG时MIMFlow-L的FID是3.64而参数量是其约3倍的SimFlow-XXL在同样没有CFG时的FID高达10.13。这意味着MIMFlow学到的语义空间本身就更加结构化不需要太多外部帮助就能产出高质量的图像。线性探测准确率的数据则直接验证了MIMFlow在语义理解方面的提升。有掩码0.4-0.6比例的MIMFlow达到了71.3%的分类准确率而完全没有掩码的相同架构只有56.6%——提升了将近15个百分点。这个差距清楚地说明是掩码机制迫使模型更好地理解图像语义而不是其他因素。在生成图像的精确度方面MIMFlow的Precision精确率衡量生成图像是否符合真实数据分布达到了0.82和众多扩散模型旗鼓相当进一步证明了这个框架的有效性。六、拆解细节每个设计选择的意义研究团队进行了大量的消融实验——也就是逐一拆除或改变设计中的各个部分观察性能如何变化以此验证每个设计选择的必要性。这些实验的结果非常清楚地讲述了各个设计选择背后的逻辑。掩码策略的选择最为关键。完全不使用掩码时生成FID高达29.0而使用0.4-0.6比例掩码时FID降至12.82此为50轮训练的结果最终完整训练后达到2.50。更有趣的是掩码比例并非越高越好0.6-0.8比例的掩码效果gFID 15.92反而不如0.4-0.6gFID 12.82过低的掩码比例0.2-0.4同样不理想gFID 24.47。混合策略一半时间不掩码、一半时间掩码表现最差gFID 26.98。这说明一个稳定、适度的信息瓶颈对于整个框架的语义聚焦至关重要——太少了效果不明显太多了则导致语义信息本身也丢失得太严重混合策略则破坏了训练时的一致性。令牌数量的选择同样有一个明确的甜点区。64个令牌时重建效果略差rFID 5.61128个令牌达到最佳平衡rFID 3.60gFID 12.46。但128个令牌之后会出现急剧恶化192个令牌时gFID直接跌到30.42。研究团队对此给出了很直观的解释256个图像块中约50%被遮住剩余约128块的信息量恰好对应128个令牌的容量这是一种自然的匹配关系。超过128个令牌意味着允许高频噪声重新渗入潜在空间破坏了分工体系的根基。关于噪声强度σ0.3是最优值σ0.2时流模型的训练流形不够平滑gFID 14.30σ0.5时噪声过大导致重建质量明显下降rFID 6.95gFID 17.69。而辅助监督的组合方面DINO与CLIP的组合gFID 12.46优于只用DINOgFID 12.89加入HOG则会导致训练崩溃或明显退化进一步确认了MIMFlow的潜在空间倾向于高层语义而拒绝低层纹理特征。七、流的内部结构一个有趣的发现研究团队还做了一个有趣的分析通过在NF不同深度的中间层提取特征测试这些特征的线性分类准确率来观察语义信息如何随着流的深度变化。结果出乎意料却又合情合理语义分类准确率在流的最初层级来自编码器的输出层最高然后随着流的层数加深准确率基本上保持平稳或略有下降而不是持续提升。这说明NF本身并不具备像深度神经网络那样越深层语义越抽象的特性——它的强项在于精确的概率分布变换而不是层层递进的语义抽象。这个发现从另一个角度证明了为什么MIMFlow的设计思路是合理的把语义提取的任务交给专门设计的掩码编码器MIM把概率分布建模的任务交给NF两者在各自擅长的领域各自发力。八、效率的意外收获更少的令牌更快的速度MIMFlow的128令牌设计带来了一个令人愉快的副产品显著的计算效率提升。研究团队在相同的硬件条件下对比了MIMFlow-L和SimFlow-L的效率表现。MIMFlow-L拥有约482M参数比SimFlow-L的475M略多但由于令牌数量从256减少到128训练时的显存占用从52.3GB降低到了37.6GB训练吞吐量从每秒2.83次迭代提升到3.11次每张图像的采样时间从0.020秒降低到0.011秒几乎减半。更实际的是显存需求的下降使得模型可以在8张A10080GBGPU上以256的批次大小进行训练降低了硬件门槛。如果把令牌数量进一步拉开到1024一些其他NF方法的设置对比会更加戏剧性1024令牌相比128令牌训练耗时是后者的8.3倍推理耗时是后者的15.8倍。这种效率差距随着生成分辨率的提高会进一步扩大。九、流场的健康体检雅可比谱分析为了从数学角度理解MIMFlow为何有效研究团队还对NF内部的数学结构进行了一种叫做雅可比谱分析的检测。不需要理解具体的数学细节只需要知道这种分析类似于对一台精密仪器进行健康体检检查它的工作是否稳健有没有存在极端的情形会导致它失灵。分析结果显示MIMFlow的NF在三个关键指标上都优于直接对原始VAE潜变量操作的STARFlow最大奇异值更集中说明没有某些方向被过度拉伸、最小奇异值更大且更稳定说明映射更加健壮不易出现几乎奇异的危险情形、条件数最大奇异值与最小奇异值的比值比值越小说明映射越健康更低且分布更集中。用直白的语言来说这意味着MIMFlow的流变换更温和——它不需要在某些方向上进行极端的空间扭曲来适应复杂的像素分布而是在一个相对平坦、结构清晰的语义空间中进行更加均匀的概率变换。这种温和的变换不仅在数值上更稳定也在直觉上解释了为什么MIMFlow生成的图像更具有全局结构一致性。归根结底MIMFlow做的事情可以用一句话概括它找到了一种让不同AI模块各司其职、分工协作的方式解决了一个长期困扰图像生成领域的老问题——生成模型要么擅长懂图像但不擅长画图像要么擅长画图像但不擅长懂图像。通过引入掩码机制作为信息瓶颈MIMFlow迫使编码器真正去理解图像同时把精细绘制的工作交给专门的解码器让作为连接两者的概率建模专家——标准化流——能够专心做好它最擅长的部分。最终的结果是用只有竞争对手三分之一的参数量在更少的令牌数下取得了更好的生成质量并且计算效率也同时提升了。这项研究目前主要在学术基准ImageNet 256×256上验证未来是否能扩展到更高分辨率或更多样化的真实应用场景是一个值得继续观察的方向。另一个值得思考的问题是掩码机制这种有意为难的训练策略在其他类型的生成模型比如扩散模型或自回归模型中是否也能发挥类似的语义聚焦作用有兴趣深入探究这些问题的读者可以通过论文编号arXiv:2606.26016找到完整的技术细节和实验数据。QAQ1MIMFlow框架和普通的图像生成AI有什么不同A普通的图像生成AI如扩散模型通常分两步训练先单独训练图像编码解码器再训练生成模型。MIMFlow的不同之处在于把三个模块——掩码编码器、标准化流、生成解码器——同时端到端训练而且通过遮住输入图像的40%-60%区域迫使编码器专注于学习图像的整体语义而非局部像素细节让标准化流只需要建模高层语义的分布最终实现了用更少的参数482M和更少的令牌数128个达到更好的生成质量。Q2MIMFlow中的掩码比例为什么选0.4到0.6太高或太低有什么问题A实验表明掩码比例在0.4-0.6时效果最佳gFID 12.82线性探测准确率71.3%。掩码比例过低0.2-0.4时信息瓶颈不够强模型仍然能轻易从局部像素重建图像语义聚焦效果弱gFID 24.47。掩码比例过高0.6-0.8时被遮住的信息太多连语义信息本身也大量丢失模型难以提炼出有效表示gFID 15.92。完全不掩码时效果最差gFID 29.0说明掩码是MIMFlow取得性能的核心机制。Q3标准化流Normalizing Flow为什么会有容量瓶颈MIMFlow如何解决A标准化流因为严格的可逆性约束必须同时处理图像中所有层次的信息——从整体语义到每个像素的微小变化。这导致模型的表达能力被分散既要建模高层语义的分布又要应对低层像素噪声的干扰。MIMFlow通过掩码编码器和可学习令牌瓶颈128个令牌预先剥离掉低频像素噪声只把压缩后的语义令牌传递给标准化流让流模型专心建模一个结构清晰的语义流形从而从根本上缓解了这一容量瓶颈。