1. 扩散模型核心原理
扩散模型的核心思想来源于非平衡热力学:前向过程逐渐向数据添加噪声直到变成纯高斯噪声,逆向过程学习逐步去噪,从而生成新样本。
逆向去噪:pθ(xt-1|xt) = N(xt-1; μθ(xt, t), Σθ(xt, t))
训练目标(简化):L = E[‖ε - εθ(xt, t)‖²] (预测噪声)
DDPM(Ho et al., 2020)证明扩散模型可以生成高质量图像。与 GAN 相比,扩散模型训练更稳定(无模式坍塌)、多样性更好,但生成速度较慢(需要多步去噪)。
2. 关键技术演进
| 技术 | 年份 | 核心贡献 |
|---|---|---|
| DDPM | 2020 | 证明扩散模型可生成高质量图像 |
| DDIM | 2020 | 确定性采样,减少步数(1000→50 步) |
| Latent Diffusion (LDM) | 2021 | 在压缩的潜在空间(而非像素空间)做扩散,效率提升 10-100 倍 |
| Classifier-Free Guidance | 2022 | 无需额外分类器的条件引导,大幅提升文本-图像对齐 |
| DiT (Diffusion Transformer) | 2023 | 用 Transformer 替代 U-Net 作为去噪骨干网络 |
| Consistency Models | 2023 | 一步或少步生成,速度提升 10-50 倍 |
| Flow Matching | 2023 | 连续归一化流框架,训练更稳定高效 |
Latent Diffusion 是关键突破——将扩散过程从像素空间(如 512×512×3)转移到 VAE 编码后的潜在空间(如 64×64×4),计算量降低数十倍。Stable Diffusion 即基于 LDM 架构。
3. 文本到图像(Text-to-Image)
| 模型 | 架构 | 关键特点 |
|---|---|---|
| DALL·E (2021.1) | GPT-3 + VQ-VAE | 首次展示文本生成图像的可能性 |
| DALL·E 2 (2022.4) | CLIP + Diffusion | 文本嵌入引导扩散,高保真度 |
| Stable Diffusion (2022.8) | Latent Diffusion | 开源!社区生态爆发(LoRA、ControlNet) |
| Midjourney v5 (2023.3) | 未公开 | 艺术质量标杆,风格化能力极强 |
| DALL·E 3 (2023.10) | Latent Diffusion | 原生 ChatGPT 集成,自然语言控制力大幅提升 |
| SD 3 / Flux (2024) | DiT + Flow Matching | MMDiT 架构,文本渲染能力突破 |
CLIP(Contrastive Language-Image Pre-training):OpenAI 提出的文本-图像对比学习模型,通过在 4 亿图文对上训练,学习了通用的视觉-语言对齐表示。CLIP 是连接文本和图像生成的关键桥梁。
4. 视频生成:从 Sora 到 Kling
Sora(OpenAI, 2024.2)是视频生成的标志性突破:最长生成 60 秒高质量视频,展示了初步的物理世界理解(如液体流动、光影变化、物体遮挡)。
技术架构:Sora 使用 DiT(Diffusion Transformer)在视频的 spacetime patches(时空补丁)上进行扩散。将视频视为"时间维度上的图像序列",统一处理不同分辨率和时长。
| 模型 | 机构 | 最长时长 | 特点 |
|---|---|---|---|
| Gen-2 | Runway | 16s | 最早的商用视频生成 |
| Sora | OpenAI | 60s | 物理世界理解,长序列一致性 |
| Kling | 快手 | 120s | 中国领先,运动控制能力强 |
| Veo 2 | — | 4K,电影级质量 | |
| HunyuanVideo | 腾讯 | — | 开源,视频编辑能力 |
5. 其他生成模态
音频/音乐生成:AudioLDM、MusicGen(Meta)、Udio、Suno 等模型可从文本描述生成音乐和音效。Suno v3 已能生成包含人声歌词的完整歌曲。
3D 生成:Point-E(OpenAI)、DreamFusion(Google)使用 2D 扩散模型引导 3D 优化(SDS Loss)。2024 年的 Gaussian Splatting + Diffusion 组合正在快速推进实时 3D 资产生成。
代码/数学推理:虽然 LLM 是代码生成的主要架构,但扩散模型也被探索用于代码补全和数学公式生成(如 CodeFusion)。
科学发现:AlphaFold 2 使用扩散模型预测蛋白质 3D 结构。RFdiffusion 可设计全新蛋白质。GenCast(Google DeepMind)用扩散模型进行天气预报,精度超越传统数值方法。
6. 生成式 AI 的影响与挑战
版权争议:Stable Diffusion 等模型在版权图像上训练,多起诉讼进行中(Getty Images v. Stability AI 等)。"训练数据是否构成合理使用"是核心法律问题。
Deepfake 与虚假信息:高质量图像/视频生成使深度伪造门槛大幅降低。C2PA、SynthID 等内容溯源标准正在推进。
计算成本:训练 Stable Diffusion 约 15 万 GPU 小时(A100),Sora 的训练成本预计数千万美元。模型压缩和蒸馏是降低推理成本的关键方向。
可控性:ControlNet、IP-Adapter、T2I-Adapter 等技术实现了精确的空间控制(姿态、边缘、深度图引导),LoRA 微调实现了风格和概念的定制。