从噪声到艺术深入理解扩散模型一文掌握AI图像生成的核心技术1. 扩散模型是什么扩散模型是一类生成模型最典型的用途是“从噪声中生成图像”。你可以把它想象成两个过程正向过程把一张真实图片一点点加噪声直到它几乎变成纯随机噪声。反向过程训练一个神经网络学会一步步去噪把随机噪声还原成一张有意义的图片。真正生成图片时我们不需要输入真实图片而是从一团随机噪声开始让模型反复执行“去噪”最后得到一张新图。扩散模型的核心直觉很朴素如果模型能学会“某个带噪图像离真实图像还差什么”那么它就能从纯噪声逐步走向真实数据分布。它现在是图像生成领域的主流技术之一Stable Diffusion、DALL·E 系列、Midjourney、Imagen 等模型都与扩散生成思想密切相关。2. 为什么叫“扩散”“扩散”这个词来自物理中的扩散现象比如墨水滴入水中墨水会逐渐散开变得越来越混乱。在扩散模型中正向加噪过程类似于清晰图像 - 轻微噪声图像 - 中等噪声图像 - 强噪声图像 - 纯噪声训练模型时我们让神经网络学习反方向纯噪声 - 强噪声图像 - 中等噪声图像 - 轻微噪声图像 - 清晰图像这个“从混乱恢复结构”的过程就是扩散模型最迷人的地方。3. 扩散模型的基本流程3.1 正向加噪给定一张真实图片x0模型会按时间步t不断加入高斯噪声x0 - x1 - x2 - ... - xT其中x0是真实图片xT接近纯噪声t表示噪声程度T是总的扩散步数。训练时我们可以随机选择一个时间步t把图片加噪到xt然后让神经网络预测加入的噪声。3.2 反向去噪反向过程是模型真正生成图片的过程。模型从随机噪声xT开始每一步预测当前图像中的噪声然后把噪声去掉一点xT - xT-1 - xT-2 - ... - x0经过多轮迭代后噪声逐渐变成具有语义结构的图像。3.3 训练目标最常见的训练目标不是直接预测干净图片而是预测噪声输入带噪图像 xt、时间步 t、可选条件 c 输出噪声 ε 目标让预测噪声接近真实加入的噪声这就是很多 DDPM 类模型中的经典训练方式。4. 条件扩散模型基础扩散模型可以无条件生成图片但实际应用中我们更常见的是条件生成。所谓条件就是告诉模型“你想生成什么”。常见条件包括文本例如“一个穿宇航服的猫站在月球上”图片例如图生图、风格迁移、修复边缘图例如 ControlNet 中的 Canny 边缘深度图控制空间结构姿态图控制人物动作分割图控制物体区域音频、视频、3D 信息等。文本到图像模型的典型结构是文本提示词 - 文本编码器 - 条件向量 随机噪声 条件向量 - 去噪网络 - 图像其中文本编码器可以是 CLIP Text Encoder、T5、Qwen 文本编码器等去噪网络通常是 U-Net 或 Diffusion Transformer。5. 典型架构5.1 U-Net 扩散模型早期主流扩散模型大量使用 U-Net。U-Net 的特点是有编码器和解码器结构能同时捕捉局部细节和全局结构通过跳跃连接保留图像细节非常适合图像去噪任务。Stable Diffusion 1.x 和 2.x 的核心去噪网络就是 U-Net。5.2 Latent Diffusion ModelLatent Diffusion Model简称 LDM是 Stable Diffusion 的关键思想。它不是直接在像素空间生成图片而是在一个压缩后的潜空间中扩散。流程大致是真实图像 - VAE Encoder - 潜变量 z 在 z 空间中加噪和去噪 生成后的 z - VAE Decoder - 输出图片这样做的优点是计算成本更低训练和推理更快可以生成高分辨率图像对显存更友好。简单说LDM 相当于不在“完整大图”上作画而是在“压缩草稿空间”中创作最后再还原成清晰图像。5.3 Diffusion TransformerDiffusion Transformer简称 DiT是近年来非常重要的方向。它把 Transformer 引入扩散模型用 Transformer 替代传统 U-Net 作为去噪网络。它的优势包括更容易扩展到大模型规模适合多模态条件输入更适合统一处理图像、视频、3D 等数据与大语言模型生态更容易结合。很多新一代图像和视频生成模型都越来越倾向于 Transformer 化。6. 重要概念6.1 Noise ScheduleNoise Schedule 指的是每一步加多少噪声。如果噪声加得太快模型很难学习如果加得太慢训练和采样成本会很高。常见 schedule 包括linear schedulecosine schedulesigmoid schedulelearned schedule。6.2 SamplerSampler 是生成时使用的采样算法。常见采样器包括DDPMDDIMEulerEuler aDPM-SolverUniPCHeunLMS。采样器会影响生成速度、画面稳定性、细节风格和随机性。6.3 Classifier-Free GuidanceClassifier-Free Guidance简称 CFG是文本生成图像中非常关键的技术。它通过比较“有条件生成”和“无条件生成”的方向增强模型对提示词的遵循程度。CFG scale 越高模型越听提示词但过高可能导致颜色过饱和结构变形画面不自然细节崩坏。6.4 VAE在 Stable Diffusion 这类模型中VAE 负责图像和潜变量之间的转换。图像 - VAE Encoder - latent latent - VAE Decoder - 图像VAE 的质量会影响图像清晰度色彩还原小文字表现细节纹理人脸和手部质量。7. 扩散模型能做什么扩散模型不仅能文生图还能做很多视觉生成任务文生图根据文本生成图片图生图根据输入图像生成变体图像修复补全缺失区域图像扩展向外扩展画布超分辨率把低分辨率图像变高清风格迁移改变图像艺术风格视频生成生成动态画面3D 生成辅助生成 3D 内容图像编辑按文本指令修改局部内容。8. 扩散模型的优点和缺点优点生成质量高训练相对稳定适合复杂分布建模可以自然支持多种条件控制在图像、视频、音频等领域表现很好。缺点采样通常比较慢推理成本较高需要大量数据和算力精确控制仍然困难对文字、手指、空间关系等细节仍可能出错训练和调参流程复杂。9. 与 GAN、VAE 的区别与 GAN 的区别GAN 通过生成器和判别器对抗训练生成图片。扩散模型则通过学习去噪过程生成图片。GAN 的特点生成速度快训练可能不稳定容易模式崩溃曾经在图像生成中非常流行。扩散模型的特点训练更稳定生成质量高采样速度较慢控制能力更强。与 VAE 的区别VAE 通过学习潜空间分布生成数据。它通常训练稳定、推理快但生成结果容易偏模糊。扩散模型则通过多步去噪生成通常细节更好但计算更贵。10. 学习路线建议按以下顺序学习概率基础高斯分布、条件概率、KL 散度、最大似然深度学习基础CNN、U-Net、Transformer、归一化、注意力机制生成模型基础VAE、GAN、Flow、DiffusionDDPM 原理正向加噪、反向去噪、噪声预测DDIM 与采样器理解为什么可以加速采样Stable Diffusion学习 VAE、CLIP、U-Net、latent diffusion条件控制ControlNet、LoRA、IP-Adapter、T2I-Adapter新架构DiT、Rectified Flow、Flow Matching、视频扩散模型实践项目训练小型 MNIST/CIFAR 扩散模型再使用 Diffusers 跑文生图。11. 推荐实践项目项目 1训练一个 MNIST 扩散模型目标从随机噪声生成手写数字。你会学到正向加噪噪声预测时间步 embeddingU-Net 基本结构采样生成过程。项目 2使用 Hugging Face Diffusers 运行 Stable Diffusion目标用现成模型做文生图和图生图。你会学到pipeline 的使用prompt 和 negative promptsampler 参数CFG scaleseed 控制显存优化。项目 3LoRA 微调目标用少量图片训练一个特定风格或角色。你会学到参数高效微调数据集构建caption 设计过拟合控制推理加载 LoRA。项目 4ControlNet 控制生成目标用边缘图、姿态图或深度图控制图像生成。你会学到条件控制结构约束多 ControlNet 组合图像编辑工作流。12. 一句话总结扩散模型的本质是学会把噪声一步步变成数据。它最重要的能力不是“记住图片”而是学习真实图像分布中的结构规律然后从随机性中生成新的样本。扩散模型介绍1. 扩散模型是什么扩散模型是一类生成模型最典型的用途是“从噪声中生成图像”。你可以把它想象成两个过程正向过程把一张真实图片一点点加噪声直到它几乎变成纯随机噪声。反向过程训练一个神经网络学会一步步去噪把随机噪声还原成一张有意义的图片。真正生成图片时我们不需要输入真实图片而是从一团随机噪声开始让模型反复执行“去噪”最后得到一张新图。扩散模型的核心直觉很朴素如果模型能学会“某个带噪图像离真实图像还差什么”那么它就能从纯噪声逐步走向真实数据分布。它现在是图像生成领域的主流技术之一Stable Diffusion、DALL·E 系列、Midjourney、Imagen 等模型都与扩散生成思想密切相关。2. 为什么叫“扩散”“扩散”这个词来自物理中的扩散现象比如墨水滴入水中墨水会逐渐散开变得越来越混乱。在扩散模型中正向加噪过程类似于清晰图像 - 轻微噪声图像 - 中等噪声图像 - 强噪声图像 - 纯噪声训练模型时我们让神经网络学习反方向纯噪声 - 强噪声图像 - 中等噪声图像 - 轻微噪声图像 - 清晰图像这个“从混乱恢复结构”的过程就是扩散模型最迷人的地方。3. 扩散模型的基本流程3.1 正向加噪给定一张真实图片x0模型会按时间步t不断加入高斯噪声x0 - x1 - x2 - ... - xT其中x0是真实图片xT接近纯噪声t表示噪声程度T是总的扩散步数。训练时我们可以随机选择一个时间步t把图片加噪到xt然后让神经网络预测加入的噪声。3.2 反向去噪反向过程是模型真正生成图片的过程。模型从随机噪声xT开始每一步预测当前图像中的噪声然后把噪声去掉一点xT - xT-1 - xT-2 - ... - x0经过多轮迭代后噪声逐渐变成具有语义结构的图像。3.3 训练目标最常见的训练目标不是直接预测干净图片而是预测噪声输入带噪图像 xt、时间步 t、可选条件 c 输出噪声 ε 目标让预测噪声接近真实加入的噪声这就是很多 DDPM 类模型中的经典训练方式。4. 条件扩散模型基础扩散模型可以无条件生成图片但实际应用中我们更常见的是条件生成。所谓条件就是告诉模型“你想生成什么”。常见条件包括文本例如“一个穿宇航服的猫站在月球上”图片例如图生图、风格迁移、修复边缘图例如 ControlNet 中的 Canny 边缘深度图控制空间结构姿态图控制人物动作分割图控制物体区域音频、视频、3D 信息等。文本到图像模型的典型结构是文本提示词 - 文本编码器 - 条件向量 随机噪声 条件向量 - 去噪网络 - 图像其中文本编码器可以是 CLIP Text Encoder、T5、Qwen 文本编码器等去噪网络通常是 U-Net 或 Diffusion Transformer。5. 典型架构5.1 U-Net 扩散模型早期主流扩散模型大量使用 U-Net。U-Net 的特点是有编码器和解码器结构能同时捕捉局部细节和全局结构通过跳跃连接保留图像细节非常适合图像去噪任务。Stable Diffusion 1.x 和 2.x 的核心去噪网络就是 U-Net。5.2 Latent Diffusion ModelLatent Diffusion Model简称 LDM是 Stable Diffusion 的关键思想。它不是直接在像素空间生成图片而是在一个压缩后的潜空间中扩散。流程大致是真实图像 - VAE Encoder - 潜变量 z 在 z 空间中加噪和去噪 生成后的 z - VAE Decoder - 输出图片这样做的优点是计算成本更低训练和推理更快可以生成高分辨率图像对显存更友好。简单说LDM 相当于不在“完整大图”上作画而是在“压缩草稿空间”中创作最后再还原成清晰图像。5.3 Diffusion TransformerDiffusion Transformer简称 DiT是近年来非常重要的方向。它把 Transformer 引入扩散模型用 Transformer 替代传统 U-Net 作为去噪网络。它的优势包括更容易扩展到大模型规模适合多模态条件输入更适合统一处理图像、视频、3D 等数据与大语言模型生态更容易结合。很多新一代图像和视频生成模型都越来越倾向于 Transformer 化。6. 重要概念6.1 Noise ScheduleNoise Schedule 指的是每一步加多少噪声。如果噪声加得太快模型很难学习如果加得太慢训练和采样成本会很高。常见 schedule 包括linear schedulecosine schedulesigmoid schedulelearned schedule。6.2 SamplerSampler 是生成时使用的采样算法。常见采样器包括DDPMDDIMEulerEuler aDPM-SolverUniPCHeunLMS。采样器会影响生成速度、画面稳定性、细节风格和随机性。6.3 Classifier-Free GuidanceClassifier-Free Guidance简称 CFG是文本生成图像中非常关键的技术。它通过比较“有条件生成”和“无条件生成”的方向增强模型对提示词的遵循程度。CFG scale 越高模型越听提示词但过高可能导致颜色过饱和结构变形画面不自然细节崩坏。6.4 VAE在 Stable Diffusion 这类模型中VAE 负责图像和潜变量之间的转换。图像 - VAE Encoder - latent latent - VAE Decoder - 图像VAE 的质量会影响图像清晰度色彩还原小文字表现细节纹理人脸和手部质量。7. 扩散模型能做什么扩散模型不仅能文生图还能做很多视觉生成任务文生图根据文本生成图片图生图根据输入图像生成变体图像修复补全缺失区域图像扩展向外扩展画布超分辨率把低分辨率图像变高清风格迁移改变图像艺术风格视频生成生成动态画面3D 生成辅助生成 3D 内容图像编辑按文本指令修改局部内容。8. 扩散模型的优点和缺点优点生成质量高训练相对稳定适合复杂分布建模可以自然支持多种条件控制在图像、视频、音频等领域表现很好。缺点采样通常比较慢推理成本较高需要大量数据和算力精确控制仍然困难对文字、手指、空间关系等细节仍可能出错训练和调参流程复杂。9. 与 GAN、VAE 的区别与 GAN 的区别GAN 通过生成器和判别器对抗训练生成图片。扩散模型则通过学习去噪过程生成图片。GAN 的特点生成速度快训练可能不稳定容易模式崩溃曾经在图像生成中非常流行。扩散模型的特点训练更稳定生成质量高采样速度较慢控制能力更强。与 VAE 的区别VAE 通过学习潜空间分布生成数据。它通常训练稳定、推理快但生成结果容易偏模糊。扩散模型则通过多步去噪生成通常细节更好但计算更贵。10. 学习路线建议按以下顺序学习概率基础高斯分布、条件概率、KL 散度、最大似然深度学习基础CNN、U-Net、Transformer、归一化、注意力机制生成模型基础VAE、GAN、Flow、DiffusionDDPM 原理正向加噪、反向去噪、噪声预测DDIM 与采样器理解为什么可以加速采样Stable Diffusion学习 VAE、CLIP、U-Net、latent diffusion条件控制ControlNet、LoRA、IP-Adapter、T2I-Adapter新架构DiT、Rectified Flow、Flow Matching、视频扩散模型实践项目训练小型 MNIST/CIFAR 扩散模型再使用 Diffusers 跑文生图。11. 推荐实践项目项目 1训练一个 MNIST 扩散模型目标从随机噪声生成手写数字。你会学到正向加噪噪声预测时间步 embeddingU-Net 基本结构采样生成过程。项目 2使用 Hugging Face Diffusers 运行 Stable Diffusion目标用现成模型做文生图和图生图。你会学到pipeline 的使用prompt 和 negative promptsampler 参数CFG scaleseed 控制显存优化。项目 3LoRA 微调目标用少量图片训练一个特定风格或角色。你会学到参数高效微调数据集构建caption 设计过拟合控制推理加载 LoRA。项目 4ControlNet 控制生成目标用边缘图、姿态图或深度图控制图像生成。你会学到条件控制结构约束多 ControlNet 组合图像编辑工作流。12. 一句话总结扩散模型的本质是学会把噪声一步步变成数据。它最重要的能力不是“记住图片”而是学习真实图像分布中的结构规律然后从随机性中生成新的样本。