AI图像生成领域最流行的评测标准,可能是一场“精致的误导“
这项由澳大利亚国立大学与Canva研究院联合开展的研究以预印本形式发表于2026年6月23日论文编号为arXiv:2606.24888。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。研究团队来自两个机构的紧密合作澳大利亚国立大学负责核心学术研究Canva研究院则提供了工业级的工程支持与资源。这种学术与产业的结合让这项研究既有扎实的理论基础又有直面真实应用场景的实践视角。**一个让整个AI图像生成领域都需要认真思考的问题**在人工智能图像生成这个领域有一个大家都在用的成绩单叫做ImageNet-FID分数。几乎所有发表新方法的论文都会把这个分数摆在最显眼的地方——分数越低就代表生成的图像越好。各路研究者为了把这个分数压低前赴后继地提出新技术、新架构、新训练方法。然而澳大利亚国立大学与Canva研究院的研究团队发现了一个令人不安的问题在ImageNet这个考场上考高分的方法换到另一个更贴近真实使用场景的考场成绩可能会一塌糊涂。更糟糕的是两个考场的成绩之间几乎没有什么关联——甚至呈现出负相关的趋势。打个比方某个学生在数学竞赛里名列前茅大家都以为他是数学天才结果一考实际应用题他的表现却不如那些在竞赛里排名靠后的同学。如果所有人只盯着竞赛成绩就永远发现不了这个问题。研究团队正是基于这个洞察设计了一套全新的评测体系并为此开发了名为NANOGEN的统一训练框架。**一、ImageNet到底是什么它为什么会出问题**要理解这个研究首先得搞清楚ImageNet生成是什么意思。ImageNet是一个包含了大量带标签图片的数据库里面有猫、狗、汽车、椅子等一千多个类别每个类别有大量图片。ImageNet图像生成的任务就是给AI一个指令比如生成一只金毛猎犬然后AI根据这个类别标签生成一张图片再用FID这个指标来衡量生成的图片和真实图片有多像。这个测试有个很大的局限性它只是在一个有限的、固定的数据集上测试AI就像只用同一套题目反复考试一样。时间久了AI的训练和设计可能会越来越对口这套题目但不代表它在实际应用中也同样优秀。研究团队所关注的另一种评测任务叫做文本生成图像简称T2I。这个任务更接近真实使用场景——用户输入一段文字描述比如一只橙色猫咪坐在窗台上看窗外的雪景AI根据这段文字生成一张图片。这要求AI真正理解语言、理解场景而不是仅仅记住某个类别的外观特征。过去大家普遍认为做文本生成图像的实验太贵、太麻烦需要完全不同的数据集、评测工具甚至要重写代码。研究团队的第一个目标就是彻底打破这个认知。**二、NANOGEN让两种考试用同一套教材**研究团队开发的NANOGEN框架核心思路就是让ImageNet生成和文本生成图像这两个任务能在同一套系统下运行用同样的模型骨架、同样的优化器、同样的训练循环只需要改动极少的配置就能从一个任务切换到另一个任务。具体来说两个任务之间的切换只需要改变两件事一是数据来源——ImageNet用的是带类别标签的图片文本生成图像用的是带文字描述的图片二是条件信号——ImageNet用的是类别编码文本生成图像用的是文字编码器。除这两点之外模型架构、损失函数、优化方法、评测流程全部保持一致。研究团队把这个切换过程量化为大约12行配置文件的改动强调的正是这种极低的工程摩擦。NANOGEN在模型架构上做了三个有意思的设计选择。第一个是使用了一种叫做解耦扩散变换器的架构把整个模型分成一个编码器和一个解码器两部分。编码器负责读取带噪声的图片加上条件信号提取出语义理解解码器则是一个又宽又浅的小网络负责根据语义理解来预测扩散目标。这种分法的好处是可以在不大幅增加计算量的前提下增加模型的理解宽度。第二个设计是在编码器里去掉了一种叫做AdaLN的调制模块只在解码器里保留它。这个技术细节背后的直觉是让解码器的调制信号来自编码器的语义输出而不是直接来自时间步编码这样信息流更加顺畅自然。第三个设计是上下文内条件机制。无论是类别标签还是文字描述都以词条的形式直接拼接在图片的视觉词条前面送入编码器不需要任何任务特定的特殊处理。这使得增加或切换条件类型只需要替换那些词条就行其余结构完全不动。对于ImageNet任务用4个时间步词条加8个类别词条对于文本生成图像任务用4个时间步词条加256个文字词条。整个模型约有6.15亿参数。训练配置上研究团队使用了AdamW优化器学习率从零线性热身到2×10??再线性衰减到2×10??配合梯度裁剪和指数移动平均EMA。扩散时间步的采样遵循一种叫做logit正态分布的方式这有助于让训练更关注那些恰好处于中间噪声水平的样本因为这些样本对最终图像质量影响最大。模型默认使用v预测目标采样时用Euler采样器跑50步。为了验证NANOGEN的可靠性研究团队用它复现了六种已有方法的结果包括RAE、两种E2EVAE、PixNerd、JiT和PixelGen。复现结果和原论文报告的数字非常接近有时候甚至略有超越。这一步很重要——只有证明这个框架能准确还原已有方法接下来的跨任务比较才有说服力。**三、揭开帘子ImageNet成绩与文本生图成绩的离婚**研究团队在NANOGEN框架下一共训练了21个潜空间扩散模型涵盖了RAE表示自编码器和VAE变分自编码器两大类潜空间方法每个方法都在ImageNet和文本生成图像两个任务上分别评测。结果让人大吃一惊。以GenEval指标为例这个指标衡量的是AI生成的图片和文字描述之间的对应程度——比如你说红色的球放在蓝色的盒子旁边AI生成的图片里是不是真的有一个红球和一个蓝盒子、位置关系也对。研究团队发现ImageNet的FID分数越低越好和GenEval分数越高越好之间的皮尔逊相关系数是-0.555。另一个文本图像评测指标DPG-Bench的相关系数是-0.580GenAIBench的相关系数是-0.377。皮尔逊相关系数在-1到1之间0代表完全无关1代表完全正相关-1代表完全负相关。这里观测到的数值在-0.4到-0.6左右意味着不仅两个方向的成绩没有相关性甚至呈现出轻微的负相关——也就是说ImageNet分数越好的方法文本生图的表现有时候反而还稍差一些。举一个具体例子来感受这种离婚程度用SpatialPE-L这个视觉编码器训练的RAE方法在ImageNet上的FID表现相当不错但它在三个文本生图指标上的表现却在所有方法中垫底。反过来在文本生图上表现突出的方法在ImageNet上的排名却未必靠前。这个发现的实际意义是如果你的研究目标是让AI在真实世界里更好地理解文字并生成图片那么只盯着ImageNet-FID来优化很可能是在浪费资源甚至在走弯路。**四、DIFFUSIONBENCH把两张成绩单合并成一张**面对这个发现研究团队的解决方案是推出DIFFUSIONBENCH——一个把ImageNet生成和文本生成图像两个任务都包含在内的综合评测基准。研究团队在DIFFUSIONBENCH框架下对大量方法进行了系统性评测留下了迄今为止这个领域最完整的横向比较数据。在ImageNet评测端研究团队对每个方法都报告了FID、IS起始分数、FDr表示弗雷歇距离的改进版本用五种不同的视觉编码器各算一遍和MIND另一种更鲁棒的图像分布距离指标。这些指标从不同角度衡量生成图片的质量比单一FID更全面。在文本生成图像评测端研究团队使用了GenEval、DPG-Bench和GenAIBench三个指标。GenEval重点测试AI是否能正确理解并生成包含特定属性、数量、位置关系的图片DPG-Bench则聚焦于更复杂的组合场景理解GenAIBench则综合考量图片在多个维度上与文字描述的吻合程度。从ImageNet评测的结果来看在所有方法中使用FLUX.2-VAE的方法获得了最低的FID分数1.37其次是使用REPA-E端到端优化的VAE家族FID大约在1.5到1.6之间。RAE家族整体FID略高DINOv3-B的FID是1.74DINOv2-B是1.96。传统VAE方法如SD-VAE和SD3.5-VAE的FID更高但研究团队指出这主要是因为在80个训练周期的有限预算下结构化程度更高的潜空间比如RAE和REPA-E会收敛更快并不代表传统VAE本质上更差——如果训练更久差距会缩小。值得一提的是FLUX.2-VAE的架构细节并不完全公开但研究团队注意到它的架构里有一个批归一化层和REPA-E的设计如出一辙可能共享了类似的端到端VAE与扩散模型联合调优的机制。像素空间方法直接在像素上训练扩散模型不经过任何潜空间压缩在80个训练周期下的FID普遍高于潜空间方法表明在有限计算预算下潜空间压缩带来的收敛加速优势明显。此外研究团队还测试了MeanFlow——一种只需一步或两步就能完成生成的方法。MeanFlow在一步推断下FID为6.60两步为5.40虽然效率很高但在质量上仍然落后于多步方法。在文本生图任务上MeanFlow的GenEval只有0.287一步和0.341两步远低于其他方法说明这类极速生成方法在需要精细理解文字的任务上还有很长的路要走。**五、文本生图评测的详细发现**在文本生成图像任务上研究团队的评测揭示了几个重要规律。从整体方法类别来看进阶潜空间方法包括RAE、FLUX.2-VAE和REPA-E家族的表现整体上优于传统潜空间方法而传统潜空间方法又整体优于像素空间方法像素空间方法则整体优于MeanFlow极速方法。这个宏观排序和ImageNet上的排序是吻合的说明在方法类别这个粗粒度层面ImageNet的信号还是有参考价值的。然而在同一个方法类别内部不同具体方法之间的ImageNet排名与文本生图排名就几乎没有关联了。正是这种大局相关、局部混乱的格局揭示了为什么在前沿方法的精细比较中只靠ImageNet来判断优劣会产生误导。端到端VAE调优是一个在两个任务上都带来改善的技术。具体来说对FLUX.1-VAE和Qwen-Image-VAE进行端到端调优之后既提升了ImageNet FID也提升了文本生图指标。这说明提升潜空间的质量是一个具有跨任务泛化价值的技术方向。不同的文本生图指标之间有时候也会产生分歧。以E2E-Qwen-Image-VAE为例在GenEval和DPG-Bench上它是最强的几个方法之一但在GenAIBench上它却落入第二梯队。这说明不同的文本生图指标在衡量的侧重点上有所不同单靠任何一个指标也不足以全面评估方法的能力。研究团队还特别注意到一个奇特现象把训练步数从10万步延长到20万步根据三个量化指标来看性能提升很小甚至持平。但从肉眼看生成的图片20万步的结果明显更好。这个矛盾说明现有的文本生图评测指标可能还不够灵敏无法准确反映视觉质量的真实提升。研究团队由此呼吁学界开发更好的文本生图评测工具。**六、训练成本文本生图并不比ImageNet贵多少**为了回应文本生图训练成本太高的普遍认知研究团队在32块H200 GPU上详细记录了每个方法训练10万步所需的实际时钟时间。结果显示绝大多数潜空间方法的ImageNet训练时间在8到12小时之间文本生图训练时间在10到13小时之间——两者非常接近。RAE方法比VAE方法稍快因为RAE使用的是基于变换器的视觉编码器而VAE主要依赖计算密集的卷积U-Net结构。像素空间方法在ImageNet上反而非常便宜因为它们不需要计算潜空间编码但这也意味着它们的生成质量在有限计算预算下更难追上潜空间方法。MeanFlow是一个特例——它在文本生图任务上的训练时间高达15.6小时比其他方法慢了约50%原因是MeanFlow的训练目标需要用PyTorch的自动微分机制来计算雅可比向量积这个操作的计算开销相当大。研究团队同时指出所有实验都可以在8块H200 GPU上完成并非必须32块这进一步降低了复现的门槛。**七、与公开大模型的对比差距真实存在但不令人绝望**研究团队在文本生图表格里也列出了几个公开的大型商业/开源模型的成绩作为参考包括SD3.5-Large80亿参数、FLUX-1120亿参数、FLUX-2320亿参数、Qwen-Image200亿参数和Z-Image-Turbo60亿参数。相比之下NANOGEN训练的所有模型都是6亿参数左右训练数据和计算预算也远小于那些大模型。毫不意外在绝对成绩上NANOGEN的方法大多低于那些庞然大物。以GenEval为例FLUX-2是0.854Qwen-Image是0.848而NANOGEN里最好的E2E-Qwen-Image-VAE是0.691差距明显。但这个比较的意义并不在于追求绝对分数而在于在相同的小型实验规模下横向比较不同方法的相对优劣并验证哪些技术方向是跨任务有效的。研究团队特别指出RAEv2一个公开了代码的竞品框架用SigLIP2-B编码器和8.75亿参数模型预训练150万步后GenEval只有0.624而NANOGEN用E2E-Qwen-Image-VAE只训练10万步就达到了0.691这说明NANOGEN的配方本身也相当有竞争力。研究团队也坦承如果在BLIP-3o-60K这个精调数据集上做监督微调GenEval可以轻松提升到0.90以上。但他们刻意没有这样做原因是他们认为这类微调很可能是在针对评测指标作弊——模型在GenEval上的数字好看了但实际的通用生成能力未必真的提高了。他们呼吁学界开发更难被针对性微调欺骗的文本生图评测机制。**研究的局限与未来方向**研究团队对这项工作的局限性相当坦诚。当前观察到的ImageNet与文本生图之间的弱相关性是在约6亿参数、10万训练步的特定规模下得到的在更大或更小的规模下这种相关性的强度可能有所不同。此外所有方法都是在相同的预算下比较更长时间的训练可能会改变方法之间的相对排名。在未来方向上研究团队提出了三个设想。DIFFUSIONBENCH可以进一步扩展到视频生成、3D生成、世界模型等其他生成式AI模态实现更广泛的跨任务评测。文本生图的评测指标亟需改进需要开发更难被刷分的评测工具。研究团队还将DIFFUSIONBENCH定位为一个社区维护的活跃排行榜随着领域发展定期刷新而不是一个静态的固定标准。说到底这项研究做的事情就像是发现驾照考试的科目二只考停车但实际开车还要跑高速——科目二通过固然重要但它不能作为判断司机驾驶能力的唯一标准。研究团队不是在否定ImageNet-FID的价值他们明确表示它仍然是一个有用的、成本低廉的研究工具他们想说的是它不应该是唯一的评判标准。一个方法如果在ImageNet上提升了在文本生图上也提升了那才是值得称道的真实进步。如果只改善了其中一个则应被明确标注为任务特定的改进而非整个领域的通用进步。对于任何使用AI图像生成工具的人来说这项研究的意义在于评测体系的设计直接决定了研究者努力的方向。当评测体系不够全面时即便每篇论文都在进步实际上对我们日常使用的生成图像的质量可能贡献甚微。---QAQ1ImageNet-FID分数低的扩散模型为什么文本生图表现不一定好AImageNet-FID测试的是给定类别标签生成图片的能力用的是固定数据集和固定评测工具模型优化方向可能会过度适应这个特定任务。而文本生图要求模型真正理解自然语言描述、处理组合关系和细节这是完全不同的能力。研究团队发现两者的皮尔逊相关系数只有约-0.4到-0.6说明在前沿方法之间一个方法的ImageNet分数好坏完全无法预测它在文本生图任务上的表现。Q2NANOGEN框架和其他训练扩散模型的框架有什么不同ANANOGEN最大的特点是用同一套代码、同一个模型骨架只改动约12行配置就能在ImageNet生成和文本生图两个任务之间切换而其他框架通常需要为两个任务维护完全不同的代码库。这种统一性保证了跨任务比较的公平性也大幅降低了研究者同时评测两个任务的工程成本。Q3DIFFUSIONBENCH基准包含哪些评测指标ADIFFUSIONBENCH包含两个维度的评测。ImageNet端使用FID、IS、FDr用五种视觉编码器分别计算的弗雷歇距离和MIND四类指标。文本生图端使用GenEval测试属性、数量、位置等组合理解、DPG-Bench复杂场景理解和GenAIBench综合文图对齐三个指标。两个维度合并在一起构成比单独使用ImageNet-FID更全面的综合评测标准。