澳门大学、中国电信联手攻克4K视频实时修复难题
这项由澳门大学、中国电信人工智能研究院TeleAI以及南京大学联合开展的研究以预印本形式于2026年6月8日发布在学术平台arXiv论文编号为arXiv:2606.09516。感兴趣的读者可以通过该编号检索到完整论文。每天无数人在手机上刷短视频在电脑上看直播或者打开云游戏。但有没有注意过当网速不好、信号不稳时画面会变得模糊、马赛克横飞更让人无奈的是很多老视频、低画质录像想看清楚细节却根本无从下手。如果有一种技术能在视频播放的同时实时把模糊画面变得清晰锐利就像给眼睛戴上了一副从未有过的超级近视眼镜这对于普通用户来说意味着什么研究团队给出的答案叫做SwiftVR——一个能在普通消费级显卡上以每秒超过26帧的速度实时把低质量视频修复为高清画面的系统。更惊人的是在专业服务器级别的显卡上它甚至能处理4K超高清视频而同类竞争对手在这个分辨率下直接内存溢出、完全无法运行。要理解这项研究的意义先从视频修复Video Restoration简称VR这件事说起。所谓视频修复就是把质量差的视频变成质量好的视频——去除噪点、去除压缩产生的块状感、提升分辨率、让细节更清晰。这在技术上是一道极度困难的填空题因为你不知道原来的画面到底是什么样子只能靠算法去猜。近年来一类叫做扩散模型的人工智能算法在这个领域大放异彩。扩散模型的核心原理可以理解为先把一张清晰的图片一步步弄脏加入噪声然后训练AI学会如何反向清理这些噪声最终恢复出清晰的图像。这类方法生成的画面质量非常高细节丰富感觉真实但代价是计算量巨大——有时候一段视频要反复清理好几十次才能得到满意结果根本无法用于实时播放场景。后来研究者发明了一步扩散技术把这个反复清理的过程压缩成只需一步大大提升了速度。但即便如此想要在高分辨率视频上做到实时处理仍然面临两座大山一是注意力机制的计算量随分辨率暴增二是视频编解码器VAE的延迟居高不下。SwiftVR的核心任务就是把这两座山同时搬掉。一、视频修复为什么这么难做到实时要理解SwiftVR解决了什么问题先要明白为什么现有方法在实时场景下举步维艰。当前最先进的视频修复扩散模型其核心是一种叫做Diffusion Transformer扩散变换器简称DiT的神经网络结构。这个网络在处理视频时会把每一帧画面切成很多小方块称为token可以理解为信息单元然后让每个小方块都去和其他所有小方块互相打招呼——这个过程就是自注意力机制。这种互相打招呼的方式让模型能理解画面中不同区域之间的关系从而做出更好的修复。然而问题在于这个打招呼的计算量是平方级增长的。也就是说如果画面分辨率翻倍参与打招呼的小方块数量也翻倍但总计算量却要增长四倍。分辨率从720p提升到4K信息单元数量增长约十六倍计算量则是惊人的约两百五十六倍。研究团队实测了一个代表性的5B50亿参数视频生成模型Wan2.2在不同分辨率下的实际运行时间结果触目惊心光是自注意力计算一项从720p到4K计算量从0.47拍次浮点运算PFLOPs暴增到21.3 PFLOPs增长了约45倍。加上整个前向传播过程720p下需要大约2.36秒1080p下需要8.37秒4K下则需要约93秒——这还只是处理一小段视频片段的时间。除了注意力计算之外视频的编解码器VAE也是一个严重的瓶颈。VAE的作用是把视频压缩到一个较小的潜在空间latent space让AI处理处理完再解压回视频画面。原始的3D视频VAE体积庞大在4K分辨率下仅解码一段25帧的视频片段就需要约25.8秒。这两个瓶颈加在一起让任何希望在高分辨率下实时运行扩散模型的尝试都显得遥不可及。与此同时实时视频修复还有一个特殊约束必须是因果式处理也就是说系统只能利用已经到来的视频帧而不能偷看未来的帧。这就像听广播直播时不能回放一样——播出去的信号不能等你看完整段录音再处理必须即时反应。这排除了许多依赖完整视频段落的离线处理方法。二、SwiftVR的整体架构流水线上的精密协作SwiftVR的设计哲学可以用一条高效运作的生产流水线来理解。原材料低质量视频进入流水线经过三个紧密协作的工位编码器、扩散变换器、解码器输出成品高清视频。每个工位都经过专门优化确保整条流水线能以足够快的速度稳定运转。具体来说SwiftVR采用分块chunk式因果流处理视频。视频被切成固定长度的片段每次处理一个片段处理完立即输出再处理下一个片段。这样做的好处是每次需要处理的视频长度T是有上限的不会随着视频总长度的增加而无限增长从而把注意力计算的复杂度控制在可接受的范围内。在这套流水线中有两个最关键的创新设计一个是针对注意力计算的无掩码移位窗口自注意力MFSWA另一个是针对编解码器的修复感知自编码器ReAE。这两个设计分别解决了计算效率和内存/速度的瓶颈问题下面详细展开介绍。三、第一把钥匙让AI的打招呼变得更聪明回到之前的比喻。如果把视频的每个像素区域比作一个人自注意力机制就是让每个人都和其他所有人握手交流。当画面很大时握手的总次数呈爆炸式增长效率极低。一个更聪明的做法是把人们分成若干小组组内成员互相握手不同组之间通过代表传递信息。这就是窗口注意力的基本思路。然而传统的窗口注意力方法比如来自微软研究院的Swin Transformer在实现时有一个技术细节的麻烦为了让不同窗口之间能够共享信息需要对数据进行循环移位操作还要使用注意力掩码来处理边界。这两个操作会让计算过程偏离所谓的密集标量积注意力SDPA的快速执行路径导致底层硬件无法充分发挥加速效果反而拖慢速度。此外处理视频时还涉及时间维度需要在三维空间时间高度宽度中划分窗口进一步增加了复杂性。SwiftVR的MFSWA无掩码移位窗口自注意力用了一个更为精巧的方案来绕过这些麻烦。首先由于视频被切成固定长度的片段时间维度已经被自然限制住了所以窗口划分只需要在空间维度高度×宽度上进行而不需要在三维中划分。每个空间窗口内该片段的所有帧都是完整可见的这样既控制了计算量又保留了时间维度上的信息流动。其次MFSWA通过一个关键设计解决了循环移位和注意力掩码的问题它用确定性索引张量提前把每个窗口的数据收集gather成一个密集的矩形张量然后直接对这个密集张量调用标准的SDPA。整个过程中不存在任何掩码、循环移位或者填充操作所有注意力计算都走的是硬件最优的密集路径。第三为了让相邻窗口之间能够交换信息MFSWA在偶数层使用正常的窗口划分奇数层则将窗口整体移动半个窗口大小向右移动宽度的一半向下移动高度的一半。这样交替进行随着网络层数的加深信息就能在全局范围内流动。移位操作不是在注意力计算内部实现的而是通过提前计算好的索引映射来实现确保收集到的数据始终是密集的矩形块。还有一个细节值得关注当视频的高度或宽度不能被窗口大小整除时边界处的窗口会通过边界钳位boundary clamping方式处理——边缘窗口会与相邻窗口重叠共享部分数据从而保证每个窗口的大小始终是固定的矩形不存在大小不一的边角窗口。这种重叠会带来少量冗余计算但研究者通过数学分析证明这个额外开销随着分辨率的提高而趋近于零在实际使用的分辨率下是完全可以接受的。更重要的是MFSWA使用的全部是标准的PyTorch SDPA接口不依赖任何特殊的硬件指令或定制化的稀疏注意力核。这意味着训练好的模型可以直接在不同品牌、不同型号的显卡上运行无需为每种硬件重新训练或修改代码。在实际效果上与完整注意力full attention的教师模型相比MFSWA将推理速度从每秒19.36帧提升到了31.32帧提升幅度达1.62倍。与此同时画面质量几乎没有损失PSNR峰值信噪比衡量图像保真度的指标从25.86 dB仅微降至25.58 dBLPIPS感知相似度数值越低越好从0.2417小幅增至0.2508。四、第二把钥匙给视频编解码器减肥解决了注意力计算的效率问题之后视频编解码器VAE的延迟就变得更加突出。原始的Wan2.2视频生成模型使用的3D VAE参数量高达7.047亿在处理一段25帧的1920×1080视频时光解码就需要约2.7秒占到了整个处理流程的相当大一部分。这对于实时应用来说是不可接受的。研究团队引入了一个专门为视频修复任务设计的轻量化编解码器称为修复感知自编码器Restoration-aware AutoEncoder简称ReAE。ReAE从一个公开的轻量化自编码器专为HunyuanVideo设计的TinyAutoEncoder初始化然后在视频数据上进行微调使其适应视频修复的特定需求。ReAE的训练分两个阶段进行。第一阶段专注于重建质量同时优化像素误差让重建的视频和原视频在每个像素上尽量接近、感知相似性让重建视频在视觉上感觉接近而不仅仅是数值接近这通过LPIPS指标衡量和时间一致性让相邻帧之间的变化保持平滑避免闪烁。第二阶段在第一阶段收敛后引入对抗训练GAN进一步提升输出画面的锐利程度和视觉真实感。ReAE最终的参数量只有约4095万不到原始Wan2.2 VAE的6%而解码速度从约2.7秒下降到约0.099秒提升了约27倍内存占用也从约24.86 GB下降到约16.97 GB。当然这种大幅提效是有代价的重建质量以PSNR衡量从35.48 dB下降到32.74 dBLPIPS从0.0513上升到0.0777。但与更小的通用轻量编解码器PSNR仅27.14 dBLPIPS 0.1183相比ReAE通过针对视频修复任务的专门微调在效率和质量之间找到了更好的平衡点。在实际推理中ReAE通过维护边界状态boundary states来保证视频片段之间的连续性。编码器在处理每个片段时会保存一些状态信息并传递给下一个片段的处理解码器同样如此。这样即使视频被切成了独立处理的片段输出的视频在片段接缝处也不会出现突变或不连续感。五、三阶段训练从粗糙到精细的磨砺过程SwiftVR的扩散变换器DiT通过三个递进的训练阶段逐步打磨每一阶段都在前一阶段的基础上解决新的问题。第一阶段是全注意力潜在流匹配预训练。研究者在冻结的ReAE潜在空间中也就是说先把视频用ReAE编码成紧凑的潜在表示再在这个压缩后的空间里训练训练一个使用完整注意力机制的DiT。训练目标是让模型学会预测从低质量视频的潜在表示到高质量视频的潜在表示之间的速度向量——类似于告诉模型从A地低质量到B地高质量的方向和距离是什么。数学上这通过流匹配flow matching框架实现定义了一条从高质量到低质量的线性路径模型学习这条路径上每个点的切线方向。第二阶段是无掩码移位窗口蒸馏。在第一阶段训练出高质量的全注意力教师模型后第二阶段使用知识蒸馏技术把教师模型的能力转移到采用MFSWA的学生模型中。学生模型不仅要完成原本的流匹配任务还要尽量让自己预测的速度向量与教师模型的预测保持一致。这个双重约束既保证了学生模型的修复能力又引导它向教师模型靠拢避免因为注意力机制改变而出现明显的质量下降。第三阶段是联合对抗微调。前两个阶段的训练都在潜在空间中进行模型优化的是潜在表示的准确性。但潜在空间中的精度不等同于最终解码出的像素画面质量。为了弥合这个潜在到像素的鸿沟第三阶段将DiT和ReAE解码器放在一起以实际推理时的单步推理协议进行端到端的联合训练。模型接收低质量视频一步预测速度向量解码得到修复后的视频然后直接在像素空间中计算损失函数包括像素误差、感知损失、时间一致性损失以及来自一个视频判别器的对抗损失。这个视频判别器的设计也颇为用心它基于一个冻结的VGG-19骨干网络一种经典的图像特征提取器从每一帧中提取多尺度的感知特征然后把这些特征重新组织成时空特征体积输入到可训练的三维卷积判别头中。这个设计让判别器既能评估单帧画面的质量也能感知帧间的时间一致性从而引导生成器在保持时序稳定性的同时产生更锐利、更真实的细节。六、实验数据用数字说话的表现报告单研究团队在多个基准数据集上对SwiftVR进行了全面评测对比对象涵盖了三类代表性方法非扩散的回归式方法Real-ESRGAN、RealBasicVSR、RealViFormer、多步扩散方法Upscale-A-Video以及一步扩散方法DOVE、SeedVR2-3B、FlashVSR-Tiny。评测数据集包括三个合成降质基准SPMCS、UDM10、YouHQ40和一个真实世界数据集VideoLQ。所有方法均在统一的分块流处理协议下评测以确保公平比较。在感知质量指标上SwiftVR表现突出在全部四个数据集上的MUSIQ机器感知图像质量指标中均排名第一在UDM10和YouHQ40数据集上的CLIP-IQA基于CLIP模型的图像质量评估和MANIQA多尺度注意力网络图像质量评估指标也均排名第一。在DISTS全参考感知相似度指标上SwiftVR在YouHQ40数据集上排名第一在SPMCS上排名第二。LPIPS方面SwiftVR与领先的一步方法相差不大。相比之下以DOVE为代表的像素保真度导向的方法在PSNR峰值信噪比和SSIM结构相似度等全参考保真度指标上表现更好但这类方法倾向于生成过于平滑的输出牺牲了真实感和细节。研究团队明确表示SwiftVR的设计目标是优先追求感知真实性与真实世界视频修复的实际需求更为契合。在效率方面SwiftVR的优势更为显著。在2560×1440分辨率下SwiftVR达到31.32帧每秒而FlashVSR-Tiny仅为9.61帧每秒DOVE和SeedVR2-3B在启用VAE分块tile处理的情况下分别只有0.87和1.39帧每秒。峰值内存方面SwiftVR使用38.01 GBFlashVSR-Tiny为34.35 GBDOVE高达59.24 GBSeedVR2-3B为35.35 GB。在更高的3840×21604K分辨率下所有参与对比的扩散模型在单张H100 80GB显卡上均因内存不足而无法运行而SwiftVR可以稳定地以13.84帧每秒运行峰值内存60.91 GB恰好在H100的80GB限制内。在消费级显卡上研究团队在一张NVIDIA RTX 5090上测试SwiftVR在1920×1080分辨率下达到了26帧每秒落在24到30帧每秒的实时流媒体标准范围内。这是目前已知的第一个在消费级显卡上实现1080p实时处理的生成式视频修复模型。运行时间的详细分解显示在所有分辨率下DiT扩散变换器的推理时间均占据端到端延迟的主要部分在1080p下编码器耗时25.67毫秒DiT耗时327.72毫秒解码器耗时85.37毫秒在4K下这三个数字分别为111.06毫秒、1270.10毫秒和344.27毫秒。这个规律与一步扩散模型的特点吻合采样瓶颈已经从迭代采样转移到了单步变换器计算本身。跨后端部署测试进一步证明了MFSWA的通用性。在同一台H100上使用PyTorch SDPA、FlashAttention-2、FlashAttention-3、SageAttention和xFormers五种不同的注意力后端SwiftVR的速度和质量几乎完全一致最快的FlashAttention-3约比PyTorch SDPA快3%SageAttention略慢约2%无需为不同硬件做任何模型调整。定性比较同样支持了量化结果。在对比真实世界视频的修复效果时研究团队选取了两个代表性场景一只停栖的猎隼考验羽毛纹理的精细恢复和一条秋叶街道考验树枝、叶片、栅栏等细密结构的还原。回归式方法能恢复大致轮廓但过度平滑细节枝条边缘有明显的色彩晕染。DOVE输出稳定但细节偏软。SeedVR2-3B和FlashVSR-Tiny能恢复更多高频细节但在枝条和车辆轮廓附近存在局部色偏、光晕或过度锐化。SwiftVR输出的羽毛方向感清晰、喙部细节干净、枝干边界清楚、叶片分离良好、车辆轮廓锐利视觉上更自然与感知指标的改善相吻合。七、局限与展望这条路还有多远研究团队对SwiftVR的局限性持坦诚态度并不回避现有问题。目前最主要的局限在于SwiftVR尚未能在消费级显卡上实现实时4K修复。在3840×2160分辨率下即使是在H100这样的专业服务器显卡上SwiftVR也只能达到13.84帧每秒距离24帧每秒的实时门槛仍有差距内存需求也超过了消费级显卡的上限。此外SwiftVR目前也没有采用任何推理侧的额外加速技术。研究团队指出了两个主要的未来方向。其一是推理加速包括训练后量化把模型中的浮点数精度降低以减少计算量、KV状态缓存与压缩保存中间计算结果供后续复用以及可学习的token减少技术让模型自主学会忽略不重要的信息单元这些技术与SwiftVR现有的架构设计是正交的可以叠加使用。其二是更小、压缩比更高的骨干网络。SwiftVR目前基于50亿参数的Wan2.2-TI2V-5B体量依然庞大更高的潜在空间压缩比和更小的基础模型对于真正实现4K消费级实时修复可能是必要条件。归根结底SwiftVR提交的这份答卷是在现有技术条件下能做多快、做多好的一次认真探索。它通过两个精心设计的核心模块——既不需要特殊硬件又能充分利用硬件加速的窗口注意力机制以及在质量和速度之间取得更好平衡的轻量化编解码器——在不牺牲太多画面质量的前提下把生成式视频修复的速度推进到了消费级硬件上1080p实时处理的里程碑。对于追求高清画质的直播观众、视频会议用户或云游戏玩家来说这类技术未来很可能成为视频平台后台默默运行的标配组件让每一个画面都尽可能清晰即便原始信号并不完美。若想深入了解技术细节可通过编号arXiv:2606.09516查阅原始论文。QAQ1SwiftVR在普通消费级显卡上能达到什么速度ASwiftVR在NVIDIA RTX 5090这张消费级显卡上能以每秒26帧的速度实时处理1920×1080Full HD分辨率的视频。这落在直播、视频会议和云游戏所需的24到30帧每秒的实时门槛范围内是目前已知的第一个在消费级显卡上实现1080p实时处理的生成式视频修复模型。Q2SwiftVR和同类扩散模型比有哪些速度差距A在2560×1440分辨率下SwiftVR在单张H100显卡上达到每秒31.32帧而同为一步扩散方法的FlashVSR-Tiny仅有9.61帧每秒DOVE和SeedVR2-3B分别只有0.87和1.39帧每秒。在4K分辨率下所有对比的扩散模型直接因内存不足无法运行只有SwiftVR能以13.84帧每秒稳定运行。Q3SwiftVR的MFSWA无掩码移位窗口自注意力为什么不需要特殊硬件就能加速A传统的窗口注意力方法在实现时需要使用循环移位和注意力掩码这会让底层计算偏离硬件最优的密集执行路径。MFSWA通过预先计算好的索引张量把每个窗口的数据直接收集成密集矩形块再调用标准的SDPA接口整个过程不含任何掩码或特殊操作所以可以在任何支持标准PyTorch SDPA的显卡上充分发挥加速效果无需定制驱动或专用核。