🎨 扩散模型与生成式 AI

扩散模型（Diffusion Models）在 2022-2024 年彻底改变了图像、音频、视频生成领域，从 DALL·E 到 Stable Diffusion 再到 Sora，生成式 AI 正在重塑创意产业。

扩散模型的核心思想来源于非平衡热力学：前向过程逐渐向数据添加噪声直到变成纯高斯噪声，逆向过程学习逐步去噪，从而生成新样本。

x₀原始图像

→ +ε

x₁微噪

→ +ε

⋯

→ +ε

x_T纯噪声

← 去噪

x̂₀生成图像

前向加噪：q(x_t|x_t-1) = N(x_t; √(1-β_t)·x_t-1, β_tI)
逆向去噪：p_θ(x_t-1|x_t) = N(x_t-1; μ_θ(x_t, t), Σ_θ(x_t, t))
训练目标（简化）：L = E[‖ε - ε_θ(x_t, t)‖²] （预测噪声）

DDPM（Ho et al., 2020）证明扩散模型可以生成高质量图像。与 GAN 相比，扩散模型训练更稳定（无模式坍塌）、多样性更好，但生成速度较慢（需要多步去噪）。

技术	年份	核心贡献
DDPM	2020	证明扩散模型可生成高质量图像
DDIM	2020	确定性采样，减少步数（1000→50 步）
Latent Diffusion (LDM)	2021	在压缩的潜在空间（而非像素空间）做扩散，效率提升 10-100 倍
Classifier-Free Guidance	2022	无需额外分类器的条件引导，大幅提升文本-图像对齐
DiT (Diffusion Transformer)	2023	用 Transformer 替代 U-Net 作为去噪骨干网络
Consistency Models	2023	一步或少步生成，速度提升 10-50 倍
Flow Matching	2023	连续归一化流框架，训练更稳定高效

Latent Diffusion 是关键突破——将扩散过程从像素空间（如 512×512×3）转移到 VAE 编码后的潜在空间（如 64×64×4），计算量降低数十倍。Stable Diffusion 即基于 LDM 架构。

CLIP（Contrastive Language-Image Pre-training）：OpenAI 提出的文本-图像对比学习模型，通过在 4 亿图文对上训练，学习了通用的视觉-语言对齐表示。CLIP 是连接文本和图像生成的关键桥梁。

Sora（OpenAI, 2024.2）是视频生成的标志性突破：最长生成 60 秒高质量视频，展示了初步的物理世界理解（如液体流动、光影变化、物体遮挡）。

技术架构：Sora 使用 DiT（Diffusion Transformer）在视频的 spacetime patches（时空补丁）上进行扩散。将视频视为"时间维度上的图像序列"，统一处理不同分辨率和时长。

音频/音乐生成：AudioLDM、MusicGen（Meta）、Udio、Suno 等模型可从文本描述生成音乐和音效。Suno v3 已能生成包含人声歌词的完整歌曲。

3D 生成：Point-E（OpenAI）、DreamFusion（Google）使用 2D 扩散模型引导 3D 优化（SDS Loss）。2024 年的 Gaussian Splatting + Diffusion 组合正在快速推进实时 3D 资产生成。

代码/数学推理：虽然 LLM 是代码生成的主要架构，但扩散模型也被探索用于代码补全和数学公式生成（如 CodeFusion）。

科学发现：AlphaFold 2 使用扩散模型预测蛋白质 3D 结构。RFdiffusion 可设计全新蛋白质。GenCast（Google DeepMind）用扩散模型进行天气预报，精度超越传统数值方法。

版权争议：Stable Diffusion 等模型在版权图像上训练，多起诉讼进行中（Getty Images v. Stability AI 等）。"训练数据是否构成合理使用"是核心法律问题。

Deepfake 与虚假信息：高质量图像/视频生成使深度伪造门槛大幅降低。C2PA、SynthID 等内容溯源标准正在推进。

计算成本：训练 Stable Diffusion 约 15 万 GPU 小时（A100），Sora 的训练成本预计数千万美元。模型压缩和蒸馏是降低推理成本的关键方向。

可控性：ControlNet、IP-Adapter、T2I-Adapter 等技术实现了精确的空间控制（姿态、边缘、深度图引导），LoRA 微调实现了风格和概念的定制。