🎨 扩散模型与生成式 AI

扩散模型(Diffusion Models)在 2022-2024 年彻底改变了图像、音频、视频生成领域,从 DALL·E 到 Stable Diffusion 再到 Sora,生成式 AI 正在重塑创意产业。

1. 扩散模型核心原理

扩散模型的核心思想来源于非平衡热力学:前向过程逐渐向数据添加噪声直到变成纯高斯噪声,逆向过程学习逐步去噪,从而生成新样本。

x₀原始图像
→ +ε
x₁微噪
→ +ε
→ +ε
xT纯噪声
← 去噪
x̂₀生成图像
前向加噪:q(xt|xt-1) = N(xt; √(1-βt)·xt-1, βtI)
逆向去噪:pθ(xt-1|xt) = N(xt-1; μθ(xt, t), Σθ(xt, t))
训练目标(简化):L = E[‖ε - εθ(xt, t)‖²] (预测噪声)

DDPM(Ho et al., 2020)证明扩散模型可以生成高质量图像。与 GAN 相比,扩散模型训练更稳定(无模式坍塌)、多样性更好,但生成速度较慢(需要多步去噪)。

2. 关键技术演进

技术年份核心贡献
DDPM2020证明扩散模型可生成高质量图像
DDIM2020确定性采样,减少步数(1000→50 步)
Latent Diffusion (LDM)2021在压缩的潜在空间(而非像素空间)做扩散,效率提升 10-100 倍
Classifier-Free Guidance2022无需额外分类器的条件引导,大幅提升文本-图像对齐
DiT (Diffusion Transformer)2023用 Transformer 替代 U-Net 作为去噪骨干网络
Consistency Models2023一步或少步生成,速度提升 10-50 倍
Flow Matching2023连续归一化流框架,训练更稳定高效

Latent Diffusion 是关键突破——将扩散过程从像素空间(如 512×512×3)转移到 VAE 编码后的潜在空间(如 64×64×4),计算量降低数十倍。Stable Diffusion 即基于 LDM 架构。

3. 文本到图像(Text-to-Image)

模型架构关键特点
DALL·E (2021.1)GPT-3 + VQ-VAE首次展示文本生成图像的可能性
DALL·E 2 (2022.4)CLIP + Diffusion文本嵌入引导扩散,高保真度
Stable Diffusion (2022.8)Latent Diffusion开源!社区生态爆发(LoRA、ControlNet)
Midjourney v5 (2023.3)未公开艺术质量标杆,风格化能力极强
DALL·E 3 (2023.10)Latent Diffusion原生 ChatGPT 集成,自然语言控制力大幅提升
SD 3 / Flux (2024)DiT + Flow MatchingMMDiT 架构,文本渲染能力突破

CLIP(Contrastive Language-Image Pre-training):OpenAI 提出的文本-图像对比学习模型,通过在 4 亿图文对上训练,学习了通用的视觉-语言对齐表示。CLIP 是连接文本和图像生成的关键桥梁。

4. 视频生成:从 Sora 到 Kling

Sora(OpenAI, 2024.2)是视频生成的标志性突破:最长生成 60 秒高质量视频,展示了初步的物理世界理解(如液体流动、光影变化、物体遮挡)。

技术架构:Sora 使用 DiT(Diffusion Transformer)在视频的 spacetime patches(时空补丁)上进行扩散。将视频视为"时间维度上的图像序列",统一处理不同分辨率和时长。

模型机构最长时长特点
Gen-2Runway16s最早的商用视频生成
SoraOpenAI60s物理世界理解,长序列一致性
Kling快手120s中国领先,运动控制能力强
Veo 2Google4K,电影级质量
HunyuanVideo腾讯开源,视频编辑能力

5. 其他生成模态

音频/音乐生成:AudioLDM、MusicGen(Meta)、Udio、Suno 等模型可从文本描述生成音乐和音效。Suno v3 已能生成包含人声歌词的完整歌曲。

3D 生成:Point-E(OpenAI)、DreamFusion(Google)使用 2D 扩散模型引导 3D 优化(SDS Loss)。2024 年的 Gaussian Splatting + Diffusion 组合正在快速推进实时 3D 资产生成。

代码/数学推理:虽然 LLM 是代码生成的主要架构,但扩散模型也被探索用于代码补全和数学公式生成(如 CodeFusion)。

科学发现:AlphaFold 2 使用扩散模型预测蛋白质 3D 结构。RFdiffusion 可设计全新蛋白质。GenCast(Google DeepMind)用扩散模型进行天气预报,精度超越传统数值方法。

6. 生成式 AI 的影响与挑战

版权争议:Stable Diffusion 等模型在版权图像上训练,多起诉讼进行中(Getty Images v. Stability AI 等)。"训练数据是否构成合理使用"是核心法律问题。

Deepfake 与虚假信息:高质量图像/视频生成使深度伪造门槛大幅降低。C2PA、SynthID 等内容溯源标准正在推进。

计算成本:训练 Stable Diffusion 约 15 万 GPU 小时(A100),Sora 的训练成本预计数千万美元。模型压缩和蒸馏是降低推理成本的关键方向。

可控性:ControlNet、IP-Adapter、T2I-Adapter 等技术实现了精确的空间控制(姿态、边缘、深度图引导),LoRA 微调实现了风格和概念的定制。