香港科技大学联手华为研究院:AI绘图训练速度提升2.78倍
这项由香港科技大学与华为研究院联合完成的研究以预印本形式于2026年6月25日发布论文编号为arXiv:2606.27192感兴趣的读者可通过该编号检索完整论文。你有没有想过当AI画图软件照着你的要求生成图像时它内部究竟是怎么运作的比如你告诉它画一个摆出特定姿势的人它是如何精准理解姿势这个要求同时又保证画出来的图片看起来自然好看的这背后其实涉及一套精妙的双人配合机制——而这篇研究的核心就是让这对搭档配合得更默契、训练得更快。研究团队发现现有的主流AI图像生成方法存在一个长期被忽视的问题负责理解视觉条件也就是用户提供的参考图比如姿势图、深度图、分割图等的那个子网络在训练过程中一直缺乏明确的方向指引。就像一个新员工被丢进工作岗位只被告知做好你的部分却没人具体告诉他你的职责到底是什么。研究团队由此提出了一种名为LISALikelihood Score Alignment即似然分数对齐的新训练方法通过给这个子网络一个明确的职责说明书让它训练起来更快、效果更好。一、两个脑袋各司其职要理解LISA解决的问题得先弄清楚AI图像生成的双网络工作机制。现代AI图像生成系统如Stable Diffusion可以被理解为一位经验丰富的画家。这位画家经过海量数据的训练已经对什么样的图像看起来自然好看有了深刻的审美直觉。当我们想让这位画家按照某张参考姿势图来画人物时不能直接把他原有的审美系统推倒重来——那代价太大了而且会毁掉他多年积累的经验。更聪明的做法是给这位画家配一个助手。助手的职责是读懂用户给的参考图比如一张骨骼姿势图然后把理解好的信息偷偷传纸条给画家让画家在保持原有审美的同时能够按照参考图的要求来作画。这就是所谓的双分支范式主网络画家冻结不动副网络助手负责解读条件并把信息注入主网络。ControlNet、T2I-Adapter这类广受欢迎的工具都是这套思路的具体实现。研究团队通过数学分析发现了这套机制背后一个更深层的秘密。从概率论的角度来看最终的条件生成可以被分解为两部分的叠加主网络负责提供一个无条件的审美判断数学上叫做无条件分数unconditional score而副网络则负责提供一个条件修正信号数学上叫做似然分数likelihood score。换句话说画家凭借自己的审美说这张图应该有这种质感助手则说但根据参考姿势这里的手臂应该往右边抬。最终的图像是两种判断叠加后的结果。这个发现点明了副网络的真正使命——它应该专门学习条件修正而不是去重复主网络已经做好的工作。然而问题在于现有的训练方式只是让整个系统看着目标图像自己摸索并没有明确告诉副网络你就该学这个修正信号。这就导致副网络的训练效率低下需要消耗大量步骤才能慢慢摸出门道。二、给助手一张工作说明书LISA的核心想法用生活中的例子来理解可以这样描述假设你在培训一个新助手传统做法是只给他看最终完成的画作让他自己琢磨我应该传递什么信息。而LISA的做法是你直接把助手应该传递的修正信号计算出来然后让助手对照着这个目标去学习。这样一来助手就不需要在茫然中摸索而是有了清晰的学习方向。具体来说这个修正信号的计算方法相当巧妙。由于主网络已经学好了无条件审美判断可以直接用它在不接受任何条件输入的情况下对当前的噪声图像打一个分。另一方面训练数据本身提供了给定真实图像时的条件分数近似值。把这两个值相减就能得到一个近似的似然分数——也就是副网络应该学习的修正信号目标。用数学符号来表示的话这个近似的似然分数 l?(c|x?) 等于训练数据提供的条件分数近似值减去主网络在无条件情况下的输出 sθ(x?, t)。这个构造过程不需要任何外部模型或额外标注完全从已有信息中推导而来。有了这个目标信号之后LISA在训练过程中做了一件额外的事情从副网络某一中间层勾取一个特征向量通过一个极其轻量的小解码器其参数量大约只有副网络的0.1%把这个特征投影到与目标信号相同的空间然后计算两者之间的距离作为一个额外的对齐损失。最终的训练目标变成了原始的扩散损失加上这个对齐损失的加权和。这个小解码器的结构非常简单只包含几层卷积、激活函数和上采样层带来的额外计算开销几乎可以忽略不计。而且关键的一点是推理时也就是真正生成图片时这个解码器会被直接丢弃对最终用户完全没有任何影响。它只在训练阶段发挥作用充当一个教练的角色训练完成后就功成身退。三、实验数据快不只是快一点点研究团队在多个任务上对LISA进行了系统测试包括姿势控制生成、语义分割图引导生成、深度图引导生成以及低分辨率图像超分辨率生成。基础模型选用了Stable Diffusion 2.1和SDXL-1.0对比对象是ControlNet和T2I-Adapter这两个主流基线方法。在姿势控制任务上最能体现LISA价值的是早期训练阶段的表现。研究团队用一个叫做PCK姿势关键点正确率的指标来衡量生成图像中人体姿势的准确性。在同样训练了1万步之后普通ControlNet的PCK只有19.38%也就是说姿势几乎完全不对而加了LISA之后PCK一跃达到83.02%几乎已经接近ControlNet训练3万步才能达到的89.82%。这意味着加了LISA的助手用大约三分之一的训练时间就达到了没有LISA时需要全程训练才能达到的水平。在深度图引导任务上同样的效率优势也非常明显。LISA只训练了4000步就在FID图像质量评分、CLIP分数和RMSE深度准确度三个指标上超过了没有LISA的ControlNet训练1万步的结果。也就是说你用40%的训练时间能得到比别人100%时间还要好的效果。T2I-Adapter也同样受益于LISA。在姿势控制任务中T2I-Adapter加上LISA之后PCK从84.85%提升到85.94%在深度图任务中FID从66.31降低到62.70CLIP分数从29.59提升到29.77RMSE从0.125降低到0.121几乎所有指标都有所改善。研究团队还将LISA与另一种叫做REPA的对齐方法进行了对比。REPA的做法是借助DINOv2这类预训练好的视觉语义模型来提供对齐目标而LISA完全不依赖任何外部模型目标信号由系统内部自动计算得出。最终结果显示LISA与REPA的性能旗鼓相当甚至在某些指标上略有优势同时省去了对外部模型的依赖。四、不只是快还能搭积木这项研究还发现了LISA带来的一个意外收获研究者将其称为组合条件生成能力。回到我们之前的比喻传统的助手训练方式中助手只是笼统地传达条件信息并没有被明确告知自己的信号应该只代表什么。这就导致两个不同任务训练出来的助手比如一个专门处理姿势一个专门处理分割图的信号可能互相干扰、纠缠不清。LISA通过明确的对齐训练让每个助手的信号都尽量纯粹地对应自己负责的修正任务。这样一来当你想同时使用两个条件时既要控制姿势又要控制场景分割只需要把两个助手的输出信号直接相加就能得到较好的复合效果。研究团队用独立训练的姿势控制和分割图控制两个副网络进行了实验推理时直接把它们各自的注入特征求和。结果显示LISA训练出来的副网络在这种组合使用场景下FID从61.0降低到55.9PCK从89.5提升到90.4mIoU场景理解准确率从12.4提升到14.7同时CLIP文本对应分数也从29到30.5有所提升。相比之下普通ControlNet训练出的副网络在这种直接相加的场景下表现明显更差因为它的信号没有经过纯粹化处理。五、不挑架构视频生成也适用研究团队还测试了LISA在不同架构和任务类型上的泛化能力。在架构层面前面的主要实验基于U-Net结构一种经典的图像处理网络形状和VP-SDE扩散方式。研究团队进一步在Stable Diffusion 3上进行了测试——这个模型用的是Diffusion TransformerDiT一种基于注意力机制的新型架构和最优传输流匹配OT-FM训练方式与前者截然不同。在分割图引导任务上LISA在训练1000步时就将mIoU从20.81%提升到22.64%训练5000步时进一步改善了FID、CLIP和mIoU三个指标。这说明LISA的原理并不依赖于特定的网络形状或数学框架具有跨架构的普适性。在视频生成方面研究团队基于Stable Video Diffusion模型和ControlVideo框架在UBC Fashion数据集一个包含时尚服装展示视频的数据集上测试了姿势引导的视频生成任务。这类任务比图像生成更难因为视频帧之间还需要保持时间连贯性。结果同样令人印象深刻在训练5000步时FVD视频质量评分越低越好从10.57降到7.85而PCK姿势准确率从30.22%大幅跃升至57.00%。训练到3万步时LISA在FVD、帧级SSIM、LPIPS和PCK四个指标上均优于基线ControlVideo。六、超参数调节找到最佳平衡点研究团队还系统地测试了LISA中两个关键超参数的影响并给出了使用建议。第一个超参数是对齐深度也就是从副网络的第几层来勾取特征进行对齐。研究团队测试了第2层、第5层和第8层三个位置发现第5层效果最好PCK达到89.90%。层数太浅第2层时特征还没有充分加工对结构信息的捕捉不够深入层数太深第8层时特征已经过度处理反而引入了多余的约束。中间位置的第5层是最佳折中点。第二个超参数是损失权重λ控制对齐损失相对于主扩散损失的强度。当λ0.1时约束力不足PCK只有86.19%当λ0.5时约束力太强PCK反而下降到87.83%λ0.2时表现最佳PCK达到89.90%。这个结论的意义在于过于强烈的提示会适得其反适度的约束才能帮助网络在保持灵活性的同时朝正确方向学习。在计算开销方面LISA引入的额外参数量极少ControlNet从364.2M参数增加到364.6M参数增幅约0.1%GPU显存占用不变每步训练时间从2.1秒增加到2.3秒增幅仅约9.5%。而推理时解码器完全被丢弃对使用者没有任何额外成本。说到底LISA这项研究做的事情并不复杂但却切中了一个长期被忽视的痛点。给AI训练一个搭档助手时以往大家只告诉助手你的目标是帮主画家画出符合要求的图至于助手具体应该贡献什么、学什么完全靠自己摸索。LISA则多做了一步把助手应该学习的具体信号推导出来直接作为额外的训练目标摆在助手面前让训练过程有了更明确的方向。这意味着对于AI图像和视频生成领域的开发者和研究者来说LISA是一种几乎没有副作用的改进方案——训练快了、效果好了、推理没有任何额外成本、还顺带提升了多条件组合的能力。对于普通用户而言这类研究的最终影响是更快发布的、条件控制更精准的图像生成工具。研究者在论文中也提到未来他们将探索把LISA扩展到更通用的条件生成场景中比如更复杂的多模态条件控制。这个方向确实值得期待如果一个原理能让局部监督变得更高效那理论上任何涉及多个子网络协同工作的系统都可能从类似的思路中受益。有兴趣深入探究数学推导和完整实验细节的读者可以通过arXiv编号2606.27192查阅原始论文。QAQ1ControlNet和LISA有什么区别LISA是新的图像生成模型吗ALISA不是独立的图像生成模型而是一种训练技巧可以叠加在ControlNet、T2I-Adapter等已有方法上使用。LISA的作用是给负责理解视觉条件的副网络提供额外的学习目标让它训练得更快、效果更好推理时和原来的ControlNet完全一样不增加任何额外成本。Q2LISA中的似然分数是什么意思为什么对齐它有用A似然分数可以理解为给定参考条件时图像应该做哪些修正的信号。LISA的核心发现是副网络的真正职责就是学习这个修正信号但以往的训练方式从没明确告诉它这一点。LISA通过计算真实训练目标与主网络无条件输出的差值得到这个信号的近似值让副网络有了明确的学习方向。Q3LISA需要额外的训练数据或者预训练好的外部模型吗A都不需要。LISA的对齐目标完全由系统内部自动计算利用的是主网络的无条件输出和训练数据本身提供的信息不依赖DINOv2等任何外部预训练模型也不需要额外采集或标注数据。