北航领衔研究:让AI医学扫描仪再任何设备上能够精准“洗照片“
这项由北京航空航天大学生物科学与医学工程学院主导联合清华大学生物医学工程系、清华大学航天工程学院及字节跳动公司共同完成的研究以arXiv预印本形式于2026年6月9日公开发布编号为arXiv:2606.11032。感兴趣的读者可通过该编号检索完整论文。**一、当医院的扫描神器遇到水土不服的困境**在医院里有一种叫做正电子发射断层扫描PETPositron Emission Tomography的检查设备它能帮助医生发现肿瘤、评估心脏功能甚至追踪大脑的代谢活动。简单理解PET扫描就像是给人体内部拍一张能看到细胞活动的照片。然而要拍出清晰的照片患者需要注射放射性药物剂量越高图像越清晰但对人体的辐射也越大。于是医学界长期面临一个两难困境少用放射性药物图像会变得模糊噪点丛生就像在昏暗房间里用手机拍的照片多用药物图像清晰了但患者受到的辐射伤害也随之增加。为了解决这个问题科学家们开始训练人工智能——专门教AI学会把低剂量的模糊PET图像修复成高质量的清晰图像就像手机里的AI夜景增强功能一样。现有的深度学习方法确实做到了这一点但它们存在一个致命弱点训练时用的是A医院、B型号扫描仪、特定剂量的数据一旦换到C医院、D型号扫描仪或者换了不同的剂量水平这些AI就会水土不服图像处理效果大幅下滑。这就好比你教一个厨师专门做粤菜突然让他做川菜他可能完全不知所措。正是为了解决这个换个厨房就不会做菜的问题北京航空航天大学的研究团队提出了一套全新的框架名为U-TTTU-shaped Test-Time Training。这套方法的核心理念是每一张新的PET图像都是独一无二的模型应该在处理每张图像的时候根据这张图像本身的特点临时调整自己的参数——换句话说它能在上场之前针对每个具体的对手临时备战而不是用一套固定战术应对所有情况。**二、传统AI的僵化与测试时训练的灵活**要理解U-TTT的创新之处先要理解传统AI为何会僵化。传统的深度学习模型有一个固定的训练流程在大量数据上学习然后参数被锁死之后面对任何新数据都用同一套固定参数来处理。这就像一个工厂流水线出厂时设定好了参数无论原材料怎么变化都按同一套程序加工。当原材料也就是测试数据和设计时预设的一样结果很好一旦原材料发生了偏差产品质量就无法保证。测试时训练Test-Time TrainingTTT是一种打破这种僵局的思路。它的基本想法是在处理每一个新的测试样本时让模型先自学一下这个样本的特征然后再对它进行处理。具体来说TTT会给模型配备一个辅助学习任务模型在处理新样本时先完成这个辅助任务来快速摸清新样本的规律然后再完成主要任务。然而传统TTT方法有一个顽固的问题——辅助任务和主要任务之间的目标可能对不上。就好比你告诉一个厨师他可以通过猜菜谱材料来练手然后再实际烹饪。但猜材料和做好菜并不总是直接关联有时候猜材料猜得越认真反而分散了做菜的精力甚至忘记了核心烹饪技巧。这在深度学习里被称为目标错位问题严重时会导致模型在辅助任务上越来越好但在真正的图像修复任务上反而退步。近年来出现的TTT层TTT Layers技术解决了这个矛盾。它不再把辅助任务当成一个外部的附加程序而是把它直接嵌入到神经网络的每一层里让辅助任务的优化过程成为网络前向计算的一部分。整个优化过程是完全可以被微分的这意味着外层的主模型可以通过主任务图像修复来监督和引导内层辅助任务的学习方向从根本上保证了两者目标一致。然而现有的TTT层技术存在两大局限。其一这些技术最初是为自然语言处理中的一维序列数据设计的直接搬到三维医学图像上效果不理想就像拿筷子吃汤一样工具和任务不匹配。其二这些方法只在空间域即图像的像素结构上做文章完全忽略了医学图像中一个非常重要的噪声来源——频率域噪声。PET图像中的噪声并不只是局部的斑点还包括在整张图像上弥散分布的频率噪声就像收音机里的底噪一样渗透在每一个细节里。**三、U-TTT的整体设计一座能够临时改装自己的工厂**北京航空航天大学的团队构建了一套名为U-TTT的网络架构这个名字里的U代表了它经典的U形网络结构而TTT则代表了它的核心能力——测试时训练。从整体来看U-TTT的工作流程可以这样理解输入一张模糊的低剂量PET图像网络先用一个卷积层提取出初步的草稿特征然后这些特征进入一个四层的编解码器结构就像一个先压缩再还原的漏斗。在编解码器的每一层都有两种特殊的处理单元交替工作分别是空间测试时训练块S-TTT Block和频率测试时训练块F-TTT Block。经过层层处理后网络生成一张修正图把这张修正图和原来的低剂量图像叠加就得到了最终的高质量还原图像。这个设计有一个非常巧妙的地方整个网络不只是被动地处理图像而是在处理每一张图像时根据这张图像的独特特性动态地调整内部参数。用工厂比喻来说这不是一条固定流水线而是一座能够根据每批原材料的具体成分临时调整生产参数的智能工厂。**四、空间测试时训练层读懂图像的骨骼结构**空间测试时训练层S-TTT Layer负责处理图像在空间维度上的特征简单说就是关注图像里的结构信息——哪里是器官的边界哪里是肿瘤各个区域的空间关系是怎样的。当一个特征图输入到S-TTT层时网络首先用一个1×1×1的卷积把通道数扩展然后把扩展后的通道均分为三份分别称为F1、F2、F3。F1是输入信号F2是目标信号F3是测试信号。接下来层内有一个内部空间重建模型SRM它的任务是学习如何从F1重建出F2。通过完成这个重建任务SRM就摸清楚了当前这张图像的空间特性。之后这个已经临时进化过的SRM被用来处理F3输出最终的空间精炼特征。这个内部SRM的设计尤为关键。研究团队没有沿用NLP里常用的简单线性层而是专门为3D医学图像设计了一套混合架构对部分通道使用3×3×3的深度可分离卷积来捕捉局部的三维空间关系对另一部分通道则使用一种叫做门控线性单元的模块——它有两个并行分支一个分支产生信息另一个分支产生一个0到1之间的开关信号两者相乘后只保留最有价值的信息就像大脑在注意力集中时会自动过滤掉背景噪音一样。整个内部优化过程通过最小化F1预测值和F2真实值之间的点积重建损失来驱动用梯度下降法在一次前向传播中完成参数更新。整个过程完全可微分这意味着外层的主网络可以通过监督最终的图像还原质量来隐式地告诉S-TTT层什么样的空间自适应方式对图像修复最有帮助。这就确保了内部的辅助学习任务和外部的图像修复目标始终朝同一个方向努力。**五、频率测试时训练层过滤图像的底层噪音**频率测试时训练层F-TTT Layer的设计思路与S-TTT层一脉相承但处理的是完全不同维度的信息——频率域特征。PET图像的噪声很大一部分不是局部的斑点而是分布在整张图像各个频率上的弥散噪声就像音乐里的底噪每个音符里都有单独看某一个位置感觉还好整体听起来却让人难受。要消除这种噪声就需要从频率的角度入手而不是在空间像素层面做文章。F-TTT层的工作流程是这样的输入特征先经过1×1×1卷积然后立即进行快速傅里叶变换FFT把图像从像素空间变换到频率空间。傅里叶变换是信号处理中的经典工具它把一个复杂的信号分解成不同频率成分的叠加就像把一首交响乐分解成各种乐器的独立音轨。完成变换后频率域的特征同样被三等分为F1、F2、F3用于驱动内部频率重建模型FRM的学习与适应。F-TTT层内部的频率重建模型FRM与S-TTT层的SRM有一个重要的设计差异它不使用深度可分离卷积。原因很直白——在频率域里每一个点都包含了来自整张图像的全局信息局部卷积在这里没有意义。因此FRM只使用门控线性单元来完成频率点之间的变换。完成自适应学习之后FRM对F3进行频率调制再通过逆快速傅里叶变换IFFT把处理后的特征还原回空间域最后用1×1×1卷积输出最终结果。由此S-TTT负责结构精修F-TTT负责频率净化两者分工明确却相互补充共同构成了U-TTT的双域自适应机制。**六、训练策略让AI学会有效地自我改进**U-TTT在训练阶段使用了一种组合损失函数。一方面是L1损失它直接衡量预测图像和真实高剂量图像之间的像素级差距确保整体内容的准确还原。另一方面是生成对抗损失adversarial loss它来自生成对抗网络GAN的思想——引入一个判别器来评判生成的图像是否足够真实从而倒逼生成器不断提升细节质量。两者的权重比例中对抗损失的权重设定为0.001远小于L1损失确保模型优先保证整体结构的准确性同时借助对抗训练恢复细节纹理。在具体训练设置上特征提取块在网络的不同层级有不同的数量配置第一层2个块第二层4个块第三层6个块第四层8个块呈逐层加深的趋势保证了越深层的处理越细致。输入投影的通道数为24内部空间重建模型的深度卷积处理通道数同样设为24。训练时使用批量大小为4AdamW优化器初始学习率为0.0001共训练30万次迭代。**七、用四个数据集检验换场不掉线的能力**为了全面评估U-TTT的性能和泛化能力研究团队构建了四个具有不同特性的全身PET数据集。每个数据集的低剂量图像都是通过对真实采集的全剂量列表模式数据进行随机下采样来模拟的再用标准的OSEM算法分别重建出全剂量和低剂量图像这样就确保了图像对的一致性。机构和扫描仪的具体身份均已匿名处理。第一个数据集来自机构I1使用扫描仪S1注射剂量约为371 MBq的18F-FDG采用4种不同的剂量削减系数DRF2、3、6、12即保留50%、33%、17%、8%的数据共有90名患者的数据用于训练、10名用于验证、30名用于测试这是模型的主训练场。第二个数据集同样来自机构I1和扫描仪S1但使用了两种训练时从未出现过的剂量削减系数DRF4和DRF10用来测试模型对陌生剂量的适应能力共30名患者。第三和第四个数据集则来自完全不同的机构和扫描仪D3来自机构I2使用扫描仪S2D4来自机构I3使用扫描仪S3图像分辨率和体素间距均与前两个数据集不同分别用于测试模型对陌生扫描仪的泛化能力各30名患者。训练阶段用64×64×64的三维图块切割图像进行学习测试时通过拼接图块来还原完整图像。**八、实验结果数字背后的真实差距**研究团队将U-TTT与五种当前最先进的PET图像去噪方法进行了横向比较基于生成对抗网络的3D-cGAN、基于Transformer架构的DRMC和Spach Transformer、基于扩散模型的3D DDPM以及基于向量量化码本先验的VQPET。所有方法都在同一训练数据集上训练然后在全部四个数据集上测试。在同分布测试中即测试数据和训练数据来自同一分布DRF2、3、6、12U-TTT在峰值信噪比PSNR指标上平均达到48.91 dB而第二名VQPET为48.11 dB提升了0.80 dB。结构相似性指数SSIM方面U-TTT平均为0.9671VQPET为0.9643提升0.0028。在最能体现临床意义的病灶误差Lesion Error即病灶区域的标准摄取值预测误差上U-TTT为0.1486VQPET为0.1640降低了约0.015。从视觉效果来看在DRF12这种极低剂量条件下其他方法对两个小病灶的对比度呈现都有不同程度的过度平滑而U-TTT能有效还原出病灶的清晰对比。值得一提的是U-TTT的参数量仅为10.20M计算复杂度为43.52G FLOPs而VQPET的参数量高达106.34M3D DDPM的计算量更是高达约260万G FLOPs这说明U-TTT在性能领先的同时计算代价反而是最低的之一。在跨分布测试中U-TTT的优势更为突出。对于陌生剂量DRF4和DRF10U-TTT的PSNR平均为46.86 dB第二名VQPET为46.19 dB提升0.67 dBSSIM平均为0.9582VQPET为0.9533。在陌生扫描仪测试中U-TTT在S2和S3两台陌生扫描仪上的PSNR平均达到43.10 dB而第二名Spach Transformer仅为42.16 dB提升近1 dBSSIM平均0.9514而表现最差的DRMC仅为0.8727差距相当显著。这些数字背后的含义是当医院换了扫描仪或调整了放射剂量U-TTT能稳定地提供高质量的图像增强而其他方法则会出现明显的性能下滑。**九、拆解验证哪个部件真正起了作用**研究团队还做了一系列消融实验专门拆解各个组件的贡献。他们建立了一个基准模型把所有的S-TTT和F-TTT层都替换成普通的MLP层多层感知机然后分别加入各个组件观察性能变化。基准模型在三个测试场景同分布基础数据集、陌生剂量、陌生扫描仪上的PSNR分别为47.63、45.68、41.89 dB。仅加入S-TTT层后三项指标变为48.45、46.07、42.43 dB均有显著提升。仅加入F-TTT层后三项指标进一步提升为48.72、46.55、42.78 dB说明F-TTT的贡献甚至略大于S-TTT。当两者同时加入时指标达到最优的48.91、46.86、43.10 dB证明两个域的适应机制是互补的缺一不可。针对内部模型设计的验证同样揭示了一些规律。如果把内部模型换成最简单的线性层原始NLP里TTT层的常见做法PSNR分别为48.31、45.97、42.21 dB换成标准MLP为48.57、46.15、42.54 dB换成只用门控线性单元不加深度卷积为48.80、46.77、42.96 dB加入深度卷积的完整设计则达到最优的48.91、46.86、43.10 dB。这一系列数字说明专门为3D视觉任务定制的内部模型设计是性能提升的关键照搬NLP里的做法会留下明显的性能缺口。**结语**说到底这项研究解决的是一个非常现实的医疗问题AI辅助医学图像处理在真实临床环境中的适用性。医院里的扫描仪型号各异不同医院采购的设备不同同一台设备在不同患者身上使用的放射剂量也因人而异。过去的AI模型像是只能在固定餐厅工作的厨师换个厨房就手忙脚乱。U-TTT的出现让这位厨师学会了在走进任何厨房的第一分钟迅速观察当前设备和食材的特点临时调整自己的烹饪策略然后做出同样水准的菜品。这项研究的意义不仅在于PET图像本身。它提供了一种让医学AI模型在真实世界中更稳健运行的思路——通过测试时的自适应训练而不是一味扩大训练数据覆盖范围来弥补泛化不足。这种思路或许可以延伸到CT去噪、MRI重建等更多医学影像任务上。当然也有一些值得深思的问题留给未来每次处理新图像时的临时参数更新会增加多少推理时间在需要实时反馈的临床场景中这种延迟是否可以接受内部模型的自学质量是否会受到极度低质量输入图像的干扰这些问题的答案将决定U-TTT从实验室走向临床的速度。有兴趣深入了解技术细节的读者可以通过arXiv编号2606.11032查阅完整论文代码也已在论文中标注的GitHub地址开放获取。QAQ1PET图像去噪中的剂量削减系数DRF是什么意思A剂量削减系数DRF表示低剂量扫描保留了多少原始数据。例如DRF4表示只保留了25%的扫描数据剂量越高图像越模糊。U-TTT通过测试时自适应训练能在不同DRF下都保持较好的去噪效果即使面对训练时从未见过的DRF4或DRF10也表现稳定。Q2U-TTT的测试时训练会不会大幅增加处理时间A论文中没有详细报告具体推理时间但从计算量来看U-TTT的FLOPs仅为43.52G参数量10.20M远低于VQPET439.99G FLOPs和3D DDPM约260万G FLOPs整体计算代价相对较低不过测试时内部参数更新引入的额外开销仍是未来需要进一步评估的问题。Q3U-TTT的空间TTT层和频率TTT层有什么本质区别AS-TTT层在像素空间处理图像的局部结构关系内部模型结合了3×3×3深度卷积和门控线性单元F-TTT层先把特征变换到频率域再处理内部模型只用门控线性单元因为频率域每个点都含全局信息局部卷积意义不大。两者分别针对空间结构退化和全局频率噪声相互补充。