这项由北京大学与DP Technology联合完成的研究以预印本形式发布于2026年6月论文编号为arXiv:2606.27978感兴趣的读者可通过该编号查阅完整原文。当你用手机拍下一张照片屏幕上显示的那些红黄蓝绿的小点就是像素。一张256×256分辨率的图片包含了超过六万五千个这样的像素点。如果一台AI想要从零开始画出这张图片它需要理解这些像素之间错综复杂的关系——哪里该出现天空的蓝哪里该衔接草地的绿哪里的猫毛该有怎样的纹理。这件事听起来简单做起来却像是用一根手指在漆黑的房间里拼一幅一万块的拼图每放下一块都要凭记忆猜测下一块应该放在哪里。北京大学与DP Technology的研究团队就在解决这样一个看似不可能的难题。他们提出了一种叫做并行展开近似Parallel Rollout Approximation简称PRA的新框架让一个只有1.35亿参数的模型就能超越那些拥有十几亿参数的竞争对手。这意味着同样出色的图像生成能力所需的计算资源却大幅减少。一、什么是自回归图像生成为什么它这么难要理解这项研究的价值需要先搞清楚研究者们到底在做什么。生成图像的AI有好几种流派。其中有一类叫做扩散模型它的工作方式就像是把一张图片先用噪声模糊成一团雪花然后再一步步把雪花还原成清晰的图像整个过程是全局同步进行的每一步都在调整整张图的所有像素。另一类则叫做自回归模型它的工作方式完全不同更像是一位画家从左上角开始一块一块地往右往下画每画一块都要参考之前已经画好的部分来决定接下来怎么画。自回归模型在语言领域大获成功——GPT系列就是这个思路它一个词一个词地生成每个新词都参考前面所有的词。把这个思路用到图像上就是把图片切成一个个小方块称为补丁然后让模型一个补丁接一个补丁地生成每生成一块就把它加入已知区域作为生成下一块的参考。然而这里藏着两个让研究者头疼已久的麻烦而这两个麻烦还会相互加剧形成一种恶性循环。第一个麻烦来自输出端每个像素补丁的维度非常高。以16×16大小的补丁为例每块包含16×16×3768个数值模型需要在一次预测中同时确定768个数字。这就像让一个人在一次猜测中同时猜对768道题出错的概率自然很高而且每一次的误差都相当大。第二个麻烦来自输入端训练时和推断时的条件不一样。在训练阶段模型每次都在参考真实的、标准的已知补丁来预测下一块——就好像学生每道题都能看标准答案再做下一道。但在实际使用时模型只能参考自己之前生成的补丁而那些补丁本身就包含了误差。这种训练和使用之间的脱节在学术上叫做训练-推断差距通俗地说就是练习时用真题标准答案考试时却要靠自己做的错题来推断。更糟糕的是这两个问题会互相放大输出时误差大生成的补丁质量差质量差的补丁又成了下一块的输入参考导致下一块误差更大如此循环图像到后期往往会崩坏得一塌糊涂。研究团队通过一系列精心设计的对比实验清晰地证明了这两个问题的存在。他们在两种分辨率下测试了同一个框架一种是64×64分辨率配4×4的小补丁补丁只有48维另一种是256×256分辨率配16×16的大补丁补丁高达768维。两种设置的生成步数完全相同都是256步区别只在于每步要预测的维度。结果低维时自回归模型还能和扩散模型打个平手一旦换成768维自回归模型的图像质量指标FID值数字越小越好从4.06急剧攀升到7.68甚至更高而扩散模型几乎不受影响。二、已有方法为什么只治标不治本面对上述两个问题此前研究界也提出了一些打补丁的方案但研究团队指出这些方案都只能部分缓解问题无法根治。针对输出端误差大的问题有研究者借鉴了扩散模型中的x预测技巧让模型直接预测目标值本身而不是预测某种速度方向。这确实有帮助——FID从9.70降到了7.68——但和扩散模型的4.56相比差距依然很大高维输出的根本困难并没有解决。针对输入端的训练-推断差距有研究者提出向训练时的输入补丁加入随机噪声让模型在训练中也能见识到不完美的输入从而增强鲁棒性。这个方法同样有效但有一个根本缺陷这些噪声是随机的、独立的而推断时模型遇到的不完美输入是有结构的是由模型自己之前的错误所决定的。就好比你在练习考试时老师故意把标准答案里随机打几个错别字给你看——这种干扰和真正考试时你自己答题的错误是完全不同的两回事。最彻底的解决办法是真正的展开训练在训练时就让模型真的跑一遍自回归生成把生成的补丁作为输入再继续训练这样训练条件就和推断条件完全一致了。理论上这很完美但实践中完全行不通——因为每个补丁的生成本身需要调用扩散头diffusion head做多步采样生成256个补丁就意味着需要顺序执行几万步计算训练成本高得无法承受。三、PRA的核心思路一套组合拳两个问题一起打PRA的设计思路是把上述两个问题同时正面解决而不是各自打补丁。核心思路可以用一个烘焙比喻来理解。假设你要烤256个不同造型的蛋糕每烤好一个都要把它的照片拿给下一步的烤制作参考。问题是第一每个蛋糕造型太复杂了一次成型误差很大第二你在练习时参考的是理想状态的蛋糕照片而实际操作时只能参考自己已烤好的可能形状有点歪的蛋糕照片。PRA的解决思路是这样的与其直接烤出完整的蛋糕不如先做出一个蛋糕胚子低维中间状态这个胚子比完整蛋糕简单得多更容易做好然后用一台专门的成型机像素解码器把胚子变成完整蛋糕。而且在训练时这台成型机不只处理完美的胚子还会处理故意弄歪了的胚子这样产出的练习用蛋糕照片就和真正操作时看到的照片更接近了。具体到技术层面PRA包含四个互相配合的模块全部端到端训练不依赖任何预训练的外部工具。第一个是因果自回归变换器这是整个系统的主干负责根据已生成的像素补丁序列来计算当前位置的隐藏状态第二个是中间状态编码器它把当前的真实补丁和主干的隐藏状态合并压缩成一个只有16维的低维向量称为中间状态第三个是像素解码器它把可能带有噪声的中间状态序列解码回768维的像素补丁第四个是扩散头它基于主干的隐藏状态学习如何生成中间状态的概率分布。这里有一个关键的设计细节值得深入理解。中间状态编码器不只是简单地把当前补丁压缩成16维它同时还参考了主干已经计算好的前缀表示也就是对所有已知补丁的理解摘要。这使得中间状态不只是当前补丁的局部压缩还包含了上下文信息更适合作为自回归预测的目标。为了防止编码器过度依赖当前补丁那样主干就学不到东西了训练时会随机把当前补丁替换成一个可学习的掩码嵌入概率是50%强迫中间状态更多地利用前缀信息。实验表明这种前缀感知的中间目标比纯粹的局部压缩能把FID从3.08进一步降低到2.88。中间状态的维度选择也经过了仔细调试。太小比如8维会导致信息不够解码器无法还原出质量够好的像素补丁太大比如64维则让扩散头又回到了预测高维向量的困境误差重新变大。16维是甜蜜点——既足够紧凑以降低生成难度又足够丰富以支撑像素解码。四、并行构建像推断时一样的训练输入解决了输出端的问题之后研究团队还需要应对输入端的训练-推断差距。PRA的解法很聪明既然推断时模型看到的是由中间状态解码出来的像素补丁那就在训练时也给它看这样的东西。具体操作是对每个位置的目标中间状态先故意加入一些噪声按照扩散过程的插值方式把它变成一个有些模糊的中间状态然后把这个模糊状态送进像素解码器得到一个有些模糊的像素补丁把这样的补丁作为训练时的输入序列。由于这个补丁经历了和推断时完全相同的中间状态到像素的解码路径它的模糊方式和推断时模型看到的自己生成的补丁非常接近远比随机加噪声更真实。更妙的是这个构建过程可以在所有位置同时并行完成——每个位置的模糊中间状态是独立采样的不需要等待前面位置的结果。这就避免了真正展开训练那种昂贵的顺序采样而仍然给了模型接近展开训练的训练信号。因此这个方法得名并行展开近似它是一种对完整展开训练的高效近似而非完整展开训练本身。训练时的噪声强度也需要仔细控制。用一个参数tmin来设定噪声下界这个值越大加入的噪声越少生成的训练输入越接近干净的真实补丁越小则噪声越多训练输入越不可靠。实验发现tmin0.5是最优选择太干净tmin1.0FID为3.35和太嘈杂tmin0.0FID为3.06都不如适中tmin0.5FID为2.88。整个训练流程在每次迭代中包含两个并行的前向计算阶段。第一阶段是教师强制阶段主干接受真实像素补丁序列计算隐藏状态编码器用这些隐藏状态和真实补丁生成中间状态然后加噪并用解码器生成推断-like的像素输入序列。第二阶段是AR训练阶段主干接受第一阶段生成的那批推断-like的像素输入序列停止梯度不反向传播计算新的隐藏状态扩散头学习从这些隐藏状态生成之前算好的干净中间状态。整个系统的训练损失结合了扩散头的流匹配损失、像素解码器的重建损失包括像素级的L1损失和感知相似度LPIPS损失以及一个辅助表示损失所有权重均等无需手动调优。五、实验结果小身材大能量研究团队在ImageNet-1K数据集上对PRA进行了系统评测这个数据集包含来自1000个类别的超过120万张训练图像是图像生成领域公认的标准测试场。所有生成质量用FID弗雷歇感知距离来衡量这个指标衡量生成图像和真实图像在统计特征上的差距数字越小说明生成质量越好。PRA提供了三种规模PRA-S1.35亿参数PRA-B2.50亿参数PRA-L5.11亿参数。评测结果非常亮眼。此前最好的像素空间自回归模型是FARMER-1.9B/8拥有19亿参数FID为3.60。而PRA-S只用了1.35亿参数FID就达到了2.58直接超越了这个19亿参数的前辈。这相当于用约7%的参数量取得了更好的效果。随着模型规模增大PRA-B达到2.21PRA-L进一步达到1.94在像素空间自回归模型中确立了新的最优水平。如果把目光放到更广阔的生成模型范畴来看PRA-L的1.94也已经超过了像素空间扩散模型中的JiT-LFID为2.36和PixNerd-LFID为2.64接近了一些依赖预训练tokenizer的两阶段扩散模型如PixelFlow-XL的1.98。需要指出的是PRA在这个更宽的比较中还没有达到最优——顶尖的两阶段扩散模型如RAE-XL/2可以达到1.13——但PRA是在完全不依赖预训练外部编码器、直接处理原始像素的约束下完成的这个定位下的1.94是相当有竞争力的成绩。在训练效率方面PRA-S在8块A100 GPU上训练400个epoch约需3.125天PRA-B约需6天PRA-L约需14.3天计算开销在合理范围内。六、消融实验逐块验证缺一不可为了让人信服PRA的每个设计选择都真正有用研究团队进行了一系列拆零件的消融实验系统地验证各个组件的贡献。在输出端的实验中他们对比了四种中间目标的构建方式。第一种是用现成的LDM编码器一个来自Stable Diffusion的预训练模型提取特征作为中间目标结果FID为3.37这说明一个为其他任务训练的通用特征空间并不适合作为自回归预测的目标。第二种是只用当前补丁本身来定义中间状态纯局部编码FID降到3.08有进步但有限。第三种是加上前缀感知同时参考主干的隐藏状态FID进一步降到2.88这验证了中间目标应该和自回归上下文对齐而不仅仅是局部的自编码压缩。在输入端的实验中对比结果更为戏剧性。用干净真实像素作为训练输入FID高达42.36——这证明了即使输出端已经改用中间状态输入端的训练-推断差距本身就能让模型崩坏。对真实像素加噪声FID降到32.60有帮助但仍然很差。用真实中间状态作为输入改变了外部接口FID降到3.21说明中间状态空间对自回归建模更友好但这实际上把模型变成了一种潜在空间AR模型失去了像素输入输出的统一接口。在真实中间状态上加噪FID进一步降到3.05。最后PRA的解码像素输入方案在保持像素输入输出接口的前提下将FID做到了2.88是所有方案中最优的同时也是唯一保留了完整像素接口的方案。七、超越生成像素级模型的理解能力这项研究还有一个让人意外的发现PRA训练出的模型不只善于生成图像还善于理解图像。研究团队在PRA-L的主干上直接做了线性分类探测linear probing——就是冻结所有模型参数只训练一个线性分类器看模型学到的特征有多少能用于图像分类。结果PRA-L在ImageNet分类任务上达到了68.80%的Top-1准确率显著超过了潜在空间AR模型SphereAR-L的52.19%以及像素空间扩散模型JiT-L的42.76%甚至远超DiT-XL/2的43.28%。这个结果的意义在于PRA直接在原始像素上建模没有经过任何压缩或变换因此模型被迫学习图像内容本身的语义信息而不是某个中间编码空间的统计规律。这种贴近原始信号的特性可能正是它在理解任务上表现更好的原因。说到底PRA这项研究的核心贡献可以用一句话概括找到了像素空间自回归图像生成的两个根本性瓶颈并用一套统一的框架同时化解了它们。第一个瓶颈是每步预测的维度太高、误差太大PRA通过端到端学习16维的低维中间状态来解决用简单的步骤替代困难的直接预测。第二个瓶颈是训练时的条件和推断时的条件不匹配PRA通过并行构建解码像素输入来解决让训练时的输入条件尽可能贴近推断时模型真正会遇到的条件同时避免了顺序展开的巨大开销。这项研究表明像素级的自回归建模并非没有前途的死路而是此前缺少正确的方法来攻克其内在困难。1.35亿参数超越19亿参数的结论也说明模型的质量更多来自于方法设计是否对症而不仅仅是规模堆砌。当然这项工作还留有若干未完成的方向。PRA在训练阶段需要运行两次并行的前向计算这比标准的教师强制训练稍贵。框架目前只在256×256分辨率的ImageNet上得到验证是否能平滑迁移到更高分辨率、文本条件生成或视频等更宽泛的领域仍有待未来工作的探索。这些开放问题或许正是下一批研究者可以接力探索的方向。有兴趣深入了解技术细节的读者可以通过arXiv编号2606.27978找到完整论文代码也已在GitHub的MangataX/PRA仓库公开发布。QAQ1PRA模型在训练时比普通自回归模型慢多少APRA在训练时需要执行两次并行前向计算一次用于构建中间状态和解码像素输入一次用于AR主干的实际训练相比标准的单次前向教师强制训练会增加一定开销。不过两次都是并行操作不需要顺序采样因此训练成本仍处于可接受范围。以PRA-S为例在8块A100 GPU上训练400个epoch约需3.125天PRA-L约需14.3天。Q2PRA中的像素解码器和常见的VAE解码器有什么区别A最关键的区别在于PRA的像素解码器是和整个模型端到端联合训练的不是预训练好再固定使用的外部组件。它是一个因果变换器结构能利用当前位置之前所有已生成的中间状态序列来解码当前补丁输出是标准的768维像素补丁因此整个系统保持了像素输入、像素输出的统一接口。VAE解码器通常是在独立阶段预训练的针对重建质量优化不考虑自回归生成的特殊需求。Q3PRA的中间状态维度为什么选16而不是更小或更大A这是通过消融实验确定的。当中间状态维度取8时信息量不足像素解码器无法还原出质量够好的补丁FID为3.36取16时FID最低为2.88取32时FID反弹到3.50取64时更是急剧恶化到7.03——这是因为维度变大后扩散头又面临了预测高维向量的困难单步误差重新变大与最初不用中间状态时遇到的问题如出一辙。16维恰好是在足够紧凑以降低预测难度和足够丰富以支持像素解码之间取到的平衡点。